python3中urlopen_python3 urlopen打开包含中文的url

搬起板凳砸西瓜

于 2021-01-14 02:02:22 发布

阅读量184

点赞数

文章标签： python3中urlopen

本文链接：https://blog.csdn.net/weixin_35918994/article/details/112903047

版权

今天在写一个爬虫的时候，抓取的页面url地址后，解析不了，然后百度查了下，地址里面的中文要转换掉

from urllib import request

from urllib.parse import quote

import string

class HtmlDownload(object):

def download(self, new_url):

if new_url is None:

return

s = quote(new_url,safe=string.printable)　　　　#用quote转换

resp = request.urlopen(s)

if resp.status != 200:

return

return resp.read().decode('utf-8')

方法quote的参数safe表示可以忽略的字符。

string.printable表示ASCII码第33～126号可打印字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其余的是一些标点符号、运算符号等。

如果不设置这个safe参数，’https://baike.baidu.com/item/糖尿病’会被转换为

‘https%3A//baike.baidu.com/item/%E7%B3%96%E5%B0%BF%E7%97%85’，

而不是’https://baike.baidu.com/item/%E7%B3%96%E5%B0%BF%E7%97%85’

上面的是网上找来的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

搬起板凳砸西瓜

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

解决python3 urllib中urlopen报错的问题

12-25

最近更新了Python版本，准备写个爬虫，意外的发现urllib库中属性不存在urlopen，于是各种google，然后总结一下给出解决方案问题的出现 AttributeError: ‘module’ object has no attribute ‘urlopen’ 问题的...

python 读取中文文件名/中文路径

qq_51883718的博客

08-07

5338

python 读取中文文件名/中文路径

参与评论您还未登录，请先登录后发表或查看评论

python3中的urlopen对于中文url是如何处理的？

qq_34776122的博客

10-20

732

文章于知呼转载，非商业，仅限个人学习所有

python3 urlopen打开包含中文的url

sijiaqi11的博客

11-05

9196

当使用urllib.request.urlopen打开包含中文的链接时报错：from urllib import requesturl = 'https://baike.baidu.com/item/糖尿病' response = request.urlopen(url)提示错误：UnicodeEncodeError: ‘ascii’ codec can’t encode characters in

Python爬虫：urlopen中的url含有中文问题

10 DAY'S

11-01

857

问题描述：在使用urllib.request中的urlopen()函数的时候，url链接中含有中文字符，无法正常执行。配置详情： python3.x 解决方法：使用urllib.parse中的quote()函数，将中文字符通过该函数进行url编码。示例： from urllib.parse import quote from urllib.request import ur...

【转】Python urllib2.urlopen打开中文url的编码处理

searchwang的专栏

06-05

3434

http://hi.baidu.com/andimeo/item/4eec9ad4dc25622a38f6f736 考文章：http://lijiang.javaeye.com/blog/312247 在用urllib2.urlopen(url)时，如果url里面包含中文，则必须对此url进行编码处理，否则会引起UnicodeError。搜索后找到了相关的处理方法引用参

解决python3 urllib 链接中有中文的问题

12-23

在Python 3中，当你尝试使用`urllib`库处理包含中文字符的URL时，可能会遇到编码相关的错误。这个问题通常由于Python默认使用ASCII编码来处理字符串，而ASCII编码不支持中文字符，导致`UnicodeEncodeError`。在描述...

Python2.X/Python3.X中urllib库区别讲解

01-20

在Python的编程环境中，urllib库是一个非常重要的模块，它被用来处理URL相关的任务，包括打开URL、解析URL、编码和解码URL等。在Python 2.X版本中，urllib库分为几个子模块，如urllib、urllib2、urlparse等，而在...

python urlopen 网址中有中文时报错的解决办法

07-05

5211

用urllib.request.urlopen()打开带有中文的网址时会报错. 在网上查了半天没有找到好的解决方法,功夫不负有心人,终于让找到了解决这个问题的方法. 先用urllib.parse.quote()对链接中的中文进行处理 import urllib.request; import urllib.parse; url = "http://www.ba

Python3 URLopen 含中文URL的处理方法

Kompany4的博客

07-30

1039

借用知乎的解答：url当中不可能有中文，因为url可以使用的字符有限制，所有其他字符都应该使用url编码，你应该先把中文编码成%XX这样的形式再拼起来解决方法如下： from urllib.parse import quote import string url = r'https://baike.baidu.com/item/百度百科/85895?fr=aladdin' url

python3抓取中文网页的方法

09-21

主要介绍了python3抓取中文网页的方法,实例分析了Python3页面抓取及编码转换的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

python3 urlopen处理带有中文的url

sanmuyang123的博客

04-09

1101

urllib.request.urlopen不能处理带有中文字符串，应使用urllib.parse.quote对其进行转换。import urllib import urllib.request import string url = 'http://jisuznwd.market.alicloudapi.com/iqa/query?question=苹果' s = urllib.parse.qu...

python处理中文路径_python3 网址路径中带中文的处理办法

weixin_39524247的博客

12-04

881

由于python目前不能直接处理中文路径，必须要转化一下，如下例子是下载图片(名字为中文的)：def getInfo(self,imageurl):response = urllib.request.urlopen(imageurl).read().decode('utf-8')# with open("text1.txt",'w',encoding='utf-8') as fil...

python3下urlopen解析中文url编码错误

Alex的博客

07-10

1322

原因是因为中文字符串无法编码成为ascii码。看了看后台提交的中文url，最后是转换为百分号编码模式来提交的。所以我们只需要对中文进行百分号编码之后，就可以encode为ascii了。 python3中我们可以找到这个编码的函数：将中文用quote函数转换成百分号编码后，即可正常运行。以下是用图灵机器人实现的在线聊天机器人 ...

urlopen打开带有中文的url

Dillon2015的博客

11-14

2963

对于一个url连接例如"www.abc.cn/name=北京"这样一个链接，如果直接用urlopen读取会报错： UnicodeEncodeError: 'ascii' codec can't encode characters in position 37-40: ordinal not in range(128) 解决办法就是使用urllib.parse.quote()解析中文部分。

python3 urlopen打开包含中文的url的问题

Kwoky的博客

07-19

2629

打开包含中文的url时，报错： UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-12: ordinal not in range(128) 解决方法： url = 'https://baike.baidu.com/item/比特币/4143690' url = parse.quote(url,...

python3 urllib 链接中有中文的解决方法

柯小黑的博客

03-22

7355

环境python3，开发平台pycharm，使用urllib时，当url中存在中文时会出现以下错误： UnicodeEncodeError: 'ascii' codec can't encode characters in position 69-78: ordinal not in range(128) 解决方法单独处理url中的中文如： import urllib s=‘中文’

python3中使用urlopen()报错的解决方法

mingyuli的博客

08-26

2485

在使用python3中的urllib.request模块抓取网页的时候使用一下的代码会报一个urllib.error.URLError错误 import urllib.request response = urllib.request.urlopen('https://www.python.org') urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify

python3中urlopen_详解python3urllib中urlopen报错的解决方法