手刃一个小爬虫

最新推荐文章于 2024-09-05 11:10:46 发布

生活百般滋味，人生需要笑对。 --佚名

最新推荐文章于 2024-09-05 11:10:46 发布

阅读量386

点赞数 9

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71017987/article/details/136220048

版权

本文介绍了如何使用Python编写爬虫从百度获取网页内容，遇到乱码问题的原因是网页内容以特定编码（如UTF-8或GBK）传输，需正确识别并转换编码。使用wb模式保存会导致乱码，因为未进行解码，而w模式下若解码不匹配则会显示乱码，浏览器会尝试自身默认编码解析。

摘要由CSDN通过智能技术生成

第一个爬虫案例

# 爬虫：通过编写程序来获取到互联网的资源

# 百度

# 需求：用程序模拟浏览器，输入一个网址，从该网址中获取资源或内容

# python搞定以上需求：

这是一个爬取百度的demo

然后点击进去会出现这个

html出现了乱码

修改代码为

结果

原理是什么呢

这是因为网页内容是以一定的编码方式进行传输的，常见的编码方式有UTF-8、GBK等。当你使用mode="wb"以二进制写入模式打开文件，并直接将返回的二进制数据写入文件时，文件中的内容是网页的原始字节数据，没有进行任何编码转换。

而当你使用mode="w"以文本写入模式打开文件，并使用.decode('utf-8')将返回的二进制数据进行UTF-8解码转换为文本后，如果网页内容的编码方式与你指定的解码方式不一致，就会导致乱码的出现。

如果你直接用浏览器打开文件，浏览器会根据自己的默认编码方式来解析文件内容，并不会根据文件头部的编码声明来解码。所以当第二种方式生成的文件中内容的编码方式与浏览器的默认编码方式不一致时，就会导致乱码的显示。

生活百般滋味，人生需要笑对。 --佚名

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
手刃一个小爬虫

如果你直接用浏览器打开文件，浏览器会根据自己的默认编码方式来解析文件内容，并不会根据文件头部的编码声明来解码。所以当第二种方式生成的文件中内容的编码方式与浏览器的默认编码方式不一致时，就会导致乱码的显示。以二进制写入模式打开文件，并直接将返回的二进制数据写入文件时，文件中的内容是网页的原始字节数据，没有进行任何编码转换。将返回的二进制数据进行UTF-8解码转换为文本后，如果网页内容的编码方式与你指定的解码方式不一致，就会导致乱码的出现。以文本写入模式打开文件，并使用。然后点击进去会出现这个。
复制链接

扫一扫

生活百般滋味，人生需要笑对。 --佚名 CSDN认证博客专家 CSDN认证企业博客

码龄2年

36: 原创

121万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

717: 积分

251: 粉丝

354: 获赞

6: 评论

344: 收藏

私信

关注

热门文章

最新评论

springdata框架对es集成
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
springdata框架对es集成
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618329159。
Web 请求过程剖析
CSDN-Ada助手: 非常感谢您分享关于Web请求过程的剖析，这篇博客内容非常丰富，让我受益匪浅。恭喜您已经写了第20篇博客，持续创作是一种很了不起的品质。接下来，我建议您可以考虑深入探讨Web请求过程中的一些实际案例，或者结合实际项目经验进行分享，这样能够给读者带来更具有参考价值的内容。期待您更多精彩的创作！
第十七章 MQ高级篇消费者可靠性---失败重试机制
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题看起来很吸引人，特别是关于MQ高级篇中消费者可靠性与失败重试机制的内容。您在这个主题上的深入探讨无疑会为读者提供有价值的见解。在下一步的创作中，或许您可以考虑对消费者可靠性的失败重试机制进行更具体的案例分析或实际应用的探索。这样的创作方式可能会进一步增加读者对该主题的理解和应用能力。当然，这只是一些建议，希望对您有所帮助。再次祝贺您在博客创作上的持续努力，期待看到更多精彩的内容！
第十五章 MQ高级篇 Lazy Queue
CSDN-Ada助手: 恭喜作者发布了第14篇博客，“第十五章 MQ高级篇 Lazy Queue”。持续创作是一件了不起的事情，你的努力和热情让我们受益良多。希望你能继续分享关于MQ高级篇的知识，也期待你能够尝试探讨一些实际案例或者问题解决的经验分享，这样更能让读者受益匪浅。加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。