爬取百度百科1000个页面数据

最新推荐文章于 2024-05-06 12:42:54 发布

笨笨robot

最新推荐文章于 2024-05-06 12:42:54 发布

阅读量731

点赞数

代码实现：https://github.com/Tei320/DailyCode/tree/master/baike_spider

自己遇到的问题以及处理方法：

Q1：response=urlib.request.urlopen() response.read()多次read为空b''

A1：read()后，原response会被清空

Q2:使用Python写文件的时候，或者将网络数据流写入到本地文件的时候，大部分情况下会遇到：UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position … 这个问题

A2:需要注意网页数据流编码，目标文件编码和python脚本文件本身的编码。

以下文章转载来自：https://blog.csdn.net/qq_38008452/article/details/80423436

将网络数据流写入文件时时，我们会遇到几个编码：

1： #encoding=’XXX’ 这里(也就是python文件第一行的内容)的编码是指该python脚本文件本身的编码，无关紧要。只要XXX和文件本身的编码相同就行了。比如notepad++ “格式”菜单里面里可以设置各种编码，这时需要保证该菜单里设置的编码和encoding XXX相同就行了，不同的话会报错

2：网络数据流的编码比如获取网页，那么网络数据流的编码就是网页的编码。需要使用decode解码成unicode编码。

3：目标文件的编码要将网络数据流的编码写入到新文件，那么我么需要指定新文件的编码。写文件代码如：

f.write(txt)

，那么txt是一个字符串，它是通过decode解码过的字符串。关键点就要来了：目标文件的编码是导致标题所指问题的罪魁祸首。如果我们打开一个文件：

 f = open("out.html","w")

，在windows下面，新文件的默认编码是gbk，这样的话，python解释器会用gbk编码去解析我们的网络数据流txt，然而txt此时已经是decode过的unicode编码，这样的话就会导致解析不了，出现上述问题。解决的办法就是，改变目标文件的编码：

f = open("out.html","w",encoding='utf-8')

。这样，问题将不复存在。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取百度百科1000个页面数据

代码实现：https://github.com/Tei320/DailyCode/tree/master/baike_spider 自己遇到的问题以及处理方法：Q1：response=urlib.request.urlopen() response.read()多次read为空b''A1：read()后，原response会被清空Q2:使用Python写文件的时候，或者将网络数...
复制链接

扫一扫

笨笨robot CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

26万+: 周排名

100万+: 总排名

2万+: 访问

: 等级

413: 积分

9: 粉丝

18: 获赞

15: 评论

32: 收藏

私信

关注

分类专栏

Flask Web 2篇
Scrapy 4篇
pycharm
database 1篇
mysql 1篇
django 1篇
selenium 1篇
pandas 1篇
ruby 1篇
mitmproxy 1篇
pyspider 1篇

最新评论

scrapy输出csv文件数据多空行问题解决
Jessiegggg: 链接中提到的第二种方法也亲测有效的： correct way of doing it (python 3)# 在open的参数中添加newline=' '）: with open("output.csv","w",newline='') as f: # python 3 cr = csv.writer(f) (in python 2, setting "wb" as open mode fixes it)# python2中，可以将mode=w 改为wb： with open("output.csv","rb") as f: with open("output_fix.csv","w") as f2: f2.write(f.read().decode().replace("\r","")) # python 3 f2.write(f.read().replace("\r","")) # python 2
使用adbapi提高访问数据库效率
今天做起: 我用这个方法经常会插入失败，报错锁库。很头疼不知道怎么解决
爬取淘宝上dota2自走棋糖果利润
杨明昊·: 厉害厉害
request保存图片
babybsong: 我在大佬的评论区瑟瑟发抖,希望能引起注意并回访我的博客哈哈
Scrapy对接Selenium并模拟登陆
笨笨robot: 问题不大~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。