2021-05-15 爬虫爬取返回值为[]的解决方法：采取正确的文字解码【爬虫笔记】

S1901

已于 2022-09-19 08:53:00 修改

阅读量3.3k

点赞数

分类专栏：爬虫 python 文章标签： python 编程语言

于 2021-05-16 01:27:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S1901/article/details/116807715

版权

爬虫同时被 2 个专栏收录

11 篇文章 3 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

爬取网页，返回值为【】空列表

不同于之前的异步加载ajax导致的返回值为空列表的情况，这次返回值为空列表，是由于没证对网页使用正确的文字编码分析导致的。
我们可以通过查看网页的源代码，决定使用什么格式的解码。

查看方法

右键网页空白处，点击查看网页源代码，此处以下图为例。
在这里插入图片描述
找到源代码中的charset的格式，可以看到对于内容，采用了utf-8的文字编码格式。

因此，我们在爬取时，同样使用的utf-8来解码。

 resp = requests.get(url, headers=Headers)
    text = resp.content.decode("utf-8", "ignore")

但如果是gdk解码或其他解码，如下图
在这里插入图片描述

我们以同样的方式修改爬虫代码。

 resp = requests.get(url, headers=Headers)
    text = resp.content.decode("gdk", "ignore")

UTF-8与GBK的区别：
GBK: 专门用来解决中文编码，双字节。是在国家标准GB2312基础上扩容后兼容GB2312标准。包含全部中文字符。
UTF-8: 解决国际上制度的一种多字节编码，对英文使用8位（1个字节），中文使用24位（3个字节）来编码。对于英文字符较多的论坛适用于UTF-8节省空间。包含全世界所有国家需要用到的字符。
　　简言而知，GBK编码方式的编码是为中国中文编码而创造的，而国际上大多使用UTF-8编码，这也是为什么大多数的网页是使用UTF-8编码而不是GBK。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
3
评论
2021-05-15 爬虫爬取返回值为[]的解决方法：采取正确的文字解码【爬虫笔记】

爬取网页，返回值为【】空列表不同于之前的异步加载ajax导致的返回值为空列表的情况，这次返回值为空列表，是由于没证对网页使用正确的文字编码分析导致的。我们可以通过查看网页的源代码，决定使用什么格式的解码。查看方法右键网页空白处，点击查看网页源代码，此处以百度为例。找到源代码中的charset的格式，可以看到对于内容，采用了utf-8的文字编码格式。因此，我们在爬取时，同样使用的utf-8来解码。 resp = requests.get(url, headers=Headers) t
复制链接

扫一扫

专栏目录

S1901 CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

7727: 周排名

3万+: 总排名

23万+: 访问

: 等级

892: 积分

8994: 粉丝

194: 获赞

70: 评论

508: 收藏

私信

关注

热门文章

分类专栏

Orcle 1篇
GitLab 1篇
其他/电脑 1篇
Hadoop 6篇
SpringBoot 1篇
可视化 1篇
python 4篇
爬虫 11篇
shell编程 8篇
CentOS7 10篇
MySQL 5篇
Linux 5篇
网络渗透 7篇
笔记 1篇
Zookpeer 1篇
Java Web 2篇

最新评论

DBeaver连接Oracle报错：ORA-12514
百锦再@新空间代码工作室: 这篇文章真的是太棒了！对于遇到DBeaver连接Oracle报错：ORA-12514的问题，文章中提供了非常详细和清晰的解决方案，让读者能够轻松地解决这个棘手的错误。作者不仅深入剖析了问题的根源，还给出了实用的解决办法，让人无比钦佩。这种细致入微、周到贴心的解决方案，真的让人感到无比惊叹和赞叹！感谢作者为我们解决了这个让人头痛的问题，让我们在使用DBeaver连接Oracle的过程中更加顺畅和高效！期待更多作者的精彩文章，让我们能够更好地利用这些技术工具，提高工作效率和生活质量！
Windows安全中心“管理登录”选项打不开&电脑指纹验证失效&Windows密码管理时验证个人账号卡住&windows休眠后无法验证指纹/密码
普通网友: 支持一下！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
centos7 yum安装使用时提示 cannot find a valid baseurl for repo:base/7/x86_64 的解决方法（亲测有效☆）
qq_52590487: 牛哇大佬，找了半天终于解决了
爬虫学习日记：爬取京东网站商品评论的实例代码
S1901: 我回来了，这个可能是Selenium版本太高的原因。降低Selenium版本为3即可，不要用4版本的。
爬虫学习日记：爬取京东网站商品评论的实例代码
S1901: 报错提示有个关键词错误，错误原因是exectable_path错误。所以你应该是ChromeDriver的路径错了。改成你自己的路径就行

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

S1901 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。