爬虫（requests）爬取数据爬到一半时乱码了的解决办法

最新推荐文章于 2024-02-04 15:08:37 发布

TheGodsHand

最新推荐文章于 2024-02-04 15:08:37 发布

阅读量1.1k

点赞数

分类专栏：错误处理文章标签： requests 爬虫乱码

本文链接：https://blog.csdn.net/Coding___Man/article/details/86553642

版权

错误处理专栏收录该内容

5 篇文章

订阅专栏

今天写了一个爬虫采集一些数据，刚开始一切都很好，后来采集到3万条左右的时候出现了乱码，不仅是保存到CSV文件中是乱码，就连打印到控制台窗口也是乱码，这时怎么一回事？

初步将问题定在网页编码可能发生了改动，一开始我请求数据是这样写的：

html = requests.get(detailUrl, headers=headers, timeout = 5).text
mytree = lxml.etree.HTML(html)

这样在一开始的时候控制台上和CSV文件中都没有出现乱码，但是后面在某一页数据之后就开始乱码了，然后我就做了这样的修改：

html = requests.get(detailUrl, headers=headers, timeout = 5)
html.encoding = 'utf-8'
mytree = lxml.etree.HTML(html.text)

将请求到的数据强制用” utf-8 “ 进行编码，这样修改过后控制台输出的信息没有乱码，但是CSV中间中还是乱码，后来我又对CSV文件保存数据的方式进行了修改，具体修改方式参见我的上一篇博客，至此，乱码问题就被解决了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TheGodsHand

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

两万字博文教你python爬虫requests库【详解篇】

孤寒者的博客

07-12

63万+

两万字博文教你python爬虫requests库【详解篇】

爬虫：Ajax数据爬取

二十四桥明月夜

01-03

9537

目录 1、什么是Ajax 1.1 实例的引入 1.2 基本原理 2、Ajax分析方法 1、查看请求 2、过滤请求 3、Ajax结果提取 1、分析请求 2、分析响应 3、例子我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有，这是因为 requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的.

参与评论您还未登录，请先登录后发表或查看评论

爬虫在爬到一半的时候报错connection error

wokeyilihai的博客

04-03

1813

菜鸟记录，以下都是网上搜罗的方法爬虫遇到的问题：connection error ：…Max retries exceeded with url：…Failed to establish a new connection:… 据说是访问太频繁导致的，或者ip被封在此之前我已经有time.sleep 尝试一：关闭多余链接 get里面加上headers={‘Connection’:‘close’}...

知乎盐选文章复制(乱码乱字解决)

Front_969的博客

01-21

9001

知乎盐选文章复制(乱码乱字解决)

知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)

01-08

知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)。大家下载试试吧。挺好用的，嘿嘿。

利用python对有规律的url进行视频爬取中遇到的小问题及解决方案

weixin_43861441的博客

11-29

1662

人生苦短，请用Python。今天在某视频门户网站（某字母站）看了一集教大家利用Python中的requests、etree和xpath进行视频爬取。照着视频一行行敲完代码之后，尝试着运行了一下，果然开始爬取了，但运行一段时间后，出现了两个小问题。 ①爬取到的视频最长只有10s且清晰度很低，但是在网页上打开并不是这样的。（已解决） ②总共200+页的视频，在爬取到40+页的时候，程序报错，是模块中...

盘点3种Python网络爬虫过程中的中文乱码的处理方法

i54996的博客

10-13

2624

这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案，希望对大家的学习有所帮助。前言前几天有个粉丝在问了一道关于使用Python网络爬虫过程中中文乱码的问题，如下图所示。看上去确实头大，对于爬虫初学者来说，这个乱码摆在自己面前，犹如拦路虎一般难顶。不过别慌，小编在这里给大家整理了三种方法，专门用于针对中文乱码的，希望大家在后面再次遇到中文乱码的问题，在此处可以得到灵感！一、思路其实解决问题的关键点就是在于一点，就是将乱码的部分进行处理，而处理的方案主...

python爬虫爬取58网站数据_Python爬虫，爬取58租房数据字体反爬

weixin_39867212的博客

11-30

1392

Python爬虫，爬取58租房数据这俩天项目主管给了个爬虫任务，要爬取58同城上福州区域的租房房源信息。因为58的前端页面做了base64字体加密所以爬取比较费力，前前后后花了俩天才搞完。项目演示与分析使用python的request库和字体反爬文件，通过替换来实现爬取，最后保存为excel文件演示：分析：1.首先直接从58爬取数据可以很明显的看到所有的数字都被替换成了乱码2.我们打开页面右键...

python爬虫中文乱码解决方案

最新发布

gsxb1的博客

02-04

1236

返回数据出现中文乱码，在使用Python练习网络爬虫技术的过程中，几乎比可避免，本文将使用chardet库，只通过代码的形式来解决这一难题的。

python爬虫表格数据中文乱码,python爬取网站遇到中文乱码的解决方案

weixin_28278377的博客

03-26

1051

乱码问题1：由于Requests模块带来的乱码。当HTTP header有指定字符集的时候，会采用指定的字符集。当HTTP header不存在明确指定的字符集，Requests会去猜测编码方式。但是这时候不能保证一定会解码正确，可能你get下来的文档都是这样的：解决办法比较简单，加上这么一句话就行了：get对象.encoding = 'utf-8'new_url = 'https://baike....

盘点一个Python网络爬虫过程中中文乱码的3个解决办法

pdcfighting的博客

04-01

1245

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤梨园弟子白发新，椒房阿监青娥老。大家好，我是皮皮。一、前言前几天在Python钻石交流群【余克富】问了一个Python网络爬虫过程中中文乱码的问题，这里拿出来给大家分享下。下图是乱码截图：【甯同学】这里也指出了，最好还是要加个请求头，尊重下爬虫。二、实现过程这个问题其实不太难，网络爬虫...

Python 爬虫中文乱码一文通

HRG520JN的博客

07-27

4211

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

Python爬虫中文乱码问题

学习一定要有针对性的练习-实操！

02-07

1470

我们在爬虫输出内容时，常常会遇到中文乱码情况（以如下网址为例）。 https://chengdu.chashebao.com/yanglao/19077.html 在输出内容时，出现如下图的情况：解决爬虫中文乱码的步骤网址编码为gbk 查看网页源代码的head部分的编码：<meta http-equiv="Content-Type" content="text/html; charset=gb2312">，发现网页编码为gbk类型利用requests库的方法查看默认输出的编码

python爬取网页有乱码怎么解决_Python 抓取网页乱码原因分析

weixin_39766071的博客

11-21

616

在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。比如，在 windows 的控制台（gbk）里抓取了一个 utf-8 编码的网站。或者，在 Mac / Linux 的终端（utf-8）里抓取了一个 gbk 编码的网站。因为多数网站采用 utf-8 编码，而不少人又是用 windows，所有这...

爬虫如果爬取的是乱码，解决方法

doudou19930614的博客

09-23

4483

在urlencode()后面加.encode(encoding='gdk') 如果还是不行，则再在read（）后面加.decode("utf-8")

python爬虫爬取内容为乱码（解决方法）

weixin_47514459的博客

01-09

2万+

小编答应朋友想爬取某某某论文，然后爬取内容竟然是乱码？所以小编就请教老师，自己做笔记总结自己的学习历程。 python处理乱码自己按自己思路执行的代码，然后计算机执行的代码，总有一些差距。具体情况，学习过来的小伙伴都懂。现象下面来说说解决办法吧。我们下要先当我们获取的内容为乱码是是因为什么导致的，可能是requests.text的解码方式不正确，要看html中的字符编码方式。点击F12——>点进Console——>输入document.charset 如图看见编码格式是“GBK” 这.

爬虫的时候会出现乱码？原来原因在这里！！

qq_39363022的博客

02-11

7756

前言相信大家在爬虫网站的时候，网页的源代码会出现乱码问题，如何解决呢？本文带你探讨一下关于一些乱码的处理方法，基本大多数语言乱码问题处理的方式是差不多的，所以只说一个可以了。乱码问题的出现就以爬取 51job网站举例，讲讲为何会出现“乱码”问题，如何解决它以及其背后的机制。 [import](http://www.yidianzixun.com/channel/w/import) reque...

网页数据爬取中文乱码处理--编码问题