在python解析网页内容爬虫时出现乱码问题怎么解决：[‘ä¸\x89äº\x9a‘, ‘å¤\x9aäº\x91‘, ‘30/25â\x84\x83‘, ‘é\x80\x82å®\x9c‘,

最新推荐文章于 2025-03-27 16:47:14 发布

Yyyaqq

最新推荐文章于 2025-03-27 16:47:14 发布

阅读量1.8w

点赞数 1

文章标签： python 爬虫前端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yyyaqq/article/details/133823694

版权

一.解析网页的内容

1.使用requests请求发送请求头

2.使用etree解析网页

注意：区分text和content的区别

如果是text 运行的话便会出现乱码现象

此时我们只需要把text改为content，再次运行

出现【中文乱码】原因
使用requests库时，选择使用的文本响应方法不合适，且没有在代码中添加设置合适的编码，以致于使用【response.text】自动获取到的网页编码，与实际网页的编码不一致，进而产生【中文乱码】。
1、【response.text】会自动根据HTTP头部去推测网页的编码，解码并返回解码后的文本。
2、【response.content】不会解码，直接以二进制形式返回。

以下是text和content的区别：

3.使用xpath解析解析网页内容，添加读取文本内容

（在网页中按F12选中要解析的内容并右击复制xpath路径）

4.使用csv写入文件

attractions.csv:写入文化名;
'w':写入,
newline='':换行,
encoding='utf-8':设置编码格式

注意：writerow()和writerows()的区别

writerow()

writerow()将一个列表全部写入csv的同一行。

writerows()

writerows()将一个二维列表中的每一个列表写为一行。

博客等级

码龄2年

5
原创

1
点赞

4
收藏

0
粉丝

关注

私信

热门文章

最新评论

在python解析网页内容爬虫时出现乱码问题怎么解决：[‘ä¸\x89äº\x9a‘, ‘å¤\x9aäº\x91‘, ‘30/25â\x84\x83‘, ‘é\x80\x82å®\x9c‘,
Wendyningning: 谢谢！已解决
在python中利用for循环将网页文本内容全部打印出来
CSDN-Ada助手: 恭喜你开始了博客创作，标题看起来很有趣呢！希望你能够继续分享更多关于Python编程的经验和技巧。或许下一篇博客可以介绍如何利用Python爬虫库来获取网页文本内容，或者分享一些关于for循环的高级应用。期待你的下一篇作品！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
如何配置Jdk环境变量
CSDN-Ada助手: 非常感谢您分享这篇博客，讲解如何配置Jdk环境变量。您的文章对于那些刚开始学习Java编程的人来说是非常有用的。希望您能继续创作，分享更多关于Java开发的知识。除了您在标题和摘要中提到的内容，我想补充一些与该博文相关的扩展知识和技能。在配置Jdk环境变量之外，学习如何使用Javac编译器和Java虚拟机（JVM）也是非常重要的。使用Javac编译器可以将Java源代码编译成可执行的字节码文件，而JVM则负责解释和执行字节码文件。此外，了解如何使用工具如Apache Maven或Gradle来构建和管理Java项目也是很有价值的。这些构建工具可以帮助您自动化构建过程，管理项目依赖，并简化项目管理。请继续分享您的知识和经验，我们期待看到更多有关Java开发的精彩文章。谢谢！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
如何在python中获取文本的元素内容
CSDN-Ada助手: 恭喜您撰写了第三篇博客！标题“如何在python中获取文本的元素内容”非常吸引人。阅读您的博客后，我对如何在Python中获取文本的元素内容有了更深入的理解。您的解释清晰明了，让我能够轻松跟随您的指导。我非常感谢您分享这些有价值的知识。在下一步的创作中，我建议您可以探索一些实际应用案例，例如如何在网络爬虫中利用Python获取网页中的特定文本内容，或者如何在数据处理中提取文本的关键信息。这样的案例将进一步帮助读者更好地理解并应用您所讲解的技巧。谦虚地说，我相信您的知识和经验将继续为读者带来更多的启发和帮助。期待您未来更多的创作！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
在python解析网页内容爬虫时出现乱码问题怎么解决：[‘ä¸\x89äº\x9a‘, ‘å¤\x9aäº\x91‘, ‘30/25â\x84\x83‘, ‘é\x80\x82å®\x9c‘,
CSDN-Ada助手: 恭喜您写了第四篇博客！标题中提到的乱码问题在网页内容爬虫中确实是一个常见的挑战。解决这个问题需要一些技巧和经验，因为不同的网页可能使用不同的编码方式。您可以尝试使用Python的编码库来处理这个问题，例如使用UTF-8编码来解析网页内容。我非常欣赏您的坚持和创作精神，持续写作对于提升技术能力和分享知识都是非常有益的。下一步，我建议您可以进一步探索如何处理其他常见的爬虫问题，例如处理动态页面、反爬虫策略等。同时，您也可以尝试分享一些实际案例，例如通过爬虫获取特定网站的数据，并进行分析和可视化展示。希望我的建议对您有所帮助，期待您的下一篇博客！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。