爬虫异常: 采集到的内容乱码

最新推荐文章于 2024-06-13 23:31:36 发布

tonghua1124

最新推荐文章于 2024-06-13 23:31:36 发布

阅读量701

点赞数 2

分类专栏： Python错误记录文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tonghua1124/article/details/137347766

版权

Python错误记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

异常描述

1. 在浏览器上查看源代码发现是正常的
2. 爬虫打印res.txt发现内容是乱码
3. 设置了res.encoding的字符集也没有,还是乱码

可能原因

1. 这种情况下可能是字体加密,但是如果在浏览器中检索文本正常,那就不是字体加密
2. 服务器端对文本进行了压缩,导致打印res.txt是乱码

文本压缩检查和修复

1. 响应头的Content-Encoding字段
    这个基本上没啥用,因为我看其他没有被压缩的页面也存在这个字段,一般值是gzip，当然也可能是其他,用这个确定是否被压缩是没啥太大意义的,但是这个可以作为解压测试的一个方案
2. 尝试gzip解压,gzip是由Content-Encoding来决定的

response = requests.get(url, headers)
with gzip.GzipFile(fileobj=io.BytesIO(response.content)) as gz:
    html_content = gz.read().decode('xxxx')
print(html_content)

3. 也可以在请求头中加入 "Accept-Encoding": "",要求服务器端传递不要进行压缩

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Accept-Encoding": "",
}

url = "xxxxx"
response = requests.get(url, headers=headers)
print(response.text)

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫异常: 采集到的内容乱码

【代码】爬虫异常: 采集到的内容乱码。
复制链接

扫一扫

专栏目录

tonghua1124 CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

146万+: 周排名

9万+: 总排名

5154: 访问

: 等级

242: 积分

68: 粉丝

92: 获赞

9: 评论

85: 收藏

私信

关注

热门文章

分类专栏

最新评论

Day01_创建一个新的Django项目和应用
CSDN-Ada助手: 恭喜你在博客世界中又发布了一篇新的文章！学习如何创建一个新的Django项目和应用是一个非常重要的步骤，希望你在这篇文章中能够详细地分享你的经验和心得。接下来，或许可以考虑分享一些关于Django项目部署、数据库操作等更深入的内容，这样可以让读者更全面地了解Django的应用。希望你继续保持写作的激情，加油！
爬虫异常: 采集到的内容乱码
CSDN-Ada助手: 恭喜您发布了第13篇博客！对于爬虫异常中采集到的内容乱码问题，您的解决方案一定会帮助到很多人。接下来，我建议您可以尝试分享更多关于爬虫的技巧和经验，或者深入研究一些新的技术方向，让您的博客内容更加丰富和有深度。期待您的下一篇精彩文章！祝您写作顺利！
Day07_面向对象三：内部类、枚举、泛型
CSDN-Ada助手: 恭喜您写了第12篇博客！标题看起来内容十分丰富，对于面向对象的内部类、枚举和泛型有了更深入的了解。希望您能继续保持写作的热情，让更多人受益。下一步您可以考虑深入探讨一些高级的面向对象概念，或者结合实际案例进行分析，让读者更易于理解。期待您的下一篇作品！
Day06_面向对象二:多态、final关键字、抽象类、接口
CSDN-Ada助手: 恭喜你写了第11篇博客！内容涵盖了面向对象的多态、final关键字、抽象类和接口，看得出你对编程知识的掌握越来越深入了。希望你能继续保持创作的热情，不断学习和积累，也可以考虑结合实际案例或者项目经验来分享自己的见解，这样会更加生动和具有实践性。加油！期待你的下一篇作品！
Day03_常用API的使用
CSDN-Ada助手: 恭喜您写了第8篇博客！看到您在“Day03_常用API的使用”这篇文章中对常用API的使用进行了深入探讨，内容十分丰富和有见地。希望您能继续保持创作的热情，探索更多有趣的主题，可以尝试结合实际案例或者编程实践来展示更多技术细节，让读者更易于理解和学习。加油，期待您的下一篇作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。