爬虫实战：遇上gb2312编码的网页

最新推荐文章于 2022-07-14 19:20:10 发布

霁小晴

最新推荐文章于 2022-07-14 19:20:10 发布

阅读量2.9k

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37842667/article/details/81198702

版权

网页使用什么编码方式（utf-8，gbk，gb2312）等对实际内容的提取影响不大，并不会报错，但爬取到的中文可能存在乱码的现象。虽然现在大部分采用utf-8的网页并不会让你遇到这个问题，但是如果遇到了，知道解决办法还是很重要的。

昨天爬取某网页时，发现提取出的几千行信息中呈现出大量中文乱码现象。话不多说，直接给出博主的解决方案：

1.我使用的是requests包，将爬取到的网页使用的content方法改成text方法，就可以将中文乱码正常显示。（需要尝试，大概率可能成功，不成功采用方法2）

2.随即又发现一个问题，稍微生僻一些的汉字会以问号的格式显示。这个时候，就不得不考虑编码问题了。

将

改为

问题解决。

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

霁小晴 CSDN认证博客专家 CSDN认证企业博客

码龄8年

28: 原创

112万+: 周排名

75万+: 总排名

2万+: 访问

: 等级

568: 积分

8: 粉丝

11: 获赞

6: 评论

31: 收藏

私信

关注

热门文章

最新评论

Programming Collective Intelligence notes
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客Programming Collective Intelligence notes真是非常有价值。我觉得博主可以继续深入探讨机器学习领域的应用，比如可以写一篇关于基于机器学习的推荐算法的博客，介绍如何实现个性化推荐，这样的技术文章对其他用户也是非常有帮助的。相信下一篇博客会有更多读者期待哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
爬虫实战：遇上gb2312编码的网页
pihuawang: 你好，我所爬取的网站数据源代码网页是GB2312格式的。但在检查元素时所显示都是中文，打开网页源代码本应该时中文汉字的地方就是乱码了。我按照你的方法，re.encoding='GBK',re.encoding='gb2312'都试过了，只能打印出源网页代码内容，并不是我想要的中文汉字信息。请问，我该怎么解决呢？网站：https://gongyi.qq.com/succor/project_list.htm#s_status=1
爬虫实战：遇上gb2312编码的网页
pihuawang: 你好，我要爬取的网页源代码格式是GB2312,在检查元素时还是中文汉字，但是打开源代码网页后就是乱码。按照你的方法，re.encoding='GBK'， re.encoding='gb2312'我都试过了，所打印出来的还是乱码。请问这样的网站数据怎么爬取呢？网站：https://gongyi.qq.com/succor/project_list.htm#s_status=1
【seaborn数据集导入问题】SSL安全验证
五角耒: 不是啊，EmptyDataError: No columns to parse from file，tips文件为空
【seaborn数据集导入问题】SSL安全验证
qq_37698493: 所以这段代码是什么意思呀

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。