Python爬虫的一个编码问题

最新推荐文章于 2023-03-14 20:39:11 发布

mr_phy

最新推荐文章于 2023-03-14 20:39:11 发布

阅读量362

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mr_phy/article/details/57083786

版权

今天在爬取“http://news.baidu.com/ns?word=博时杨锐”这个网页的时候，

程序报错：UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)

我以为这是程序编码的问题。

结果根据报错的代码寻找到的结果发现，只有python2.x才会出现这个问题。并且通过函数

import importlib,sys

importlib.reload(sys)

print(sys.getdefaultencoding())

获取我们解释器用的编码确实是utf-8，和网页编码一致

通过单步调试，发现问题出在函数urllib.request.urlopen()

urllib.request.urlopen()打开带有中文的网页会报错。

所以需要先用urllib.parse.quote()对链接中的中文进行处理

root_url = "http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=" + urllib.parse.quote("博时杨睿")

这样，这个问题就解决了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫的一个编码问题

今天在爬取“http://news.baidu.com/ns?word=博时杨锐”这个网页的时候，程序报错：UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)我以为这是程序编码的问题。结果根据报错的代码寻找到的结果发现，只有p
复制链接

扫一扫

mr_phy CSDN认证博客专家 CSDN认证企业博客

码龄9年

47: 原创

26万+: 周排名

140万+: 总排名

5万+: 访问

: 等级

877: 积分

6: 粉丝

7: 获赞

14: 评论

37: 收藏

私信

关注

热门文章

分类专栏

mac python osx 2篇
leetcode 9篇
爬虫 1篇
算法 11篇
JM 1篇
java 15篇
mysql 2篇
HTTP 2篇
JSP 1篇
数据库 1篇

最新评论

Python爬取百度新闻数据并将时间统计到EXCEL中
囧囧one: 您好，可以分享一下url_manager.py文件吗，感谢🙏～
h264 slice_group_map_type
赛斯迪恩: 在有了片组的概念后，划分片时还有一个规则：一个片中的所有宏块，必须属于同一个片组。 ------这句稍微有点误导了
Python爬取百度新闻数据并将时间统计到EXCEL中
冲向未来的小白: 你好，请问可不可以有偿帮我爬个数据呀，跟你做的这个差不多。
Spring boot 数据库连接断线重连
hotel2016: 博主你好请问你这个连接池用的是Spring boot默认的hikari连接池吗?能解决mysql8小时断连问题吗？
Spring boot 数据库连接断线重连
甜的柠檬酸: 你好，我想问一下，如果在断连前我的连接是可用的，然后我在sql执行完了，然后我又开始了手动事务，事务在提交前连接因为连接的有效期到了，导致事务没有提交，这种是如何解决的呢？还是说对于这种快到达失效的连接，spring不会分配出去？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。