scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题

最新推荐文章于 2021-02-21 05:56:56 发布

driverxb

最新推荐文章于 2021-02-21 05:56:56 发布

阅读量538

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/u013683613/article/details/105258165

版权

本文介绍了三种解决Scrapy爬虫在处理中文内容时遇到的乱码问题，包括循环尝试不同编码、在下载中间件中修改响应的charset，以及使用chardet库检测编码。特别是通过HtmlResponse处理和在settings.py启用下载中间件，有效解决了中文乱码问题。

摘要由CSDN通过智能技术生成

循环暴力寻找编码，但是不如思路3

 def parse(self, response):
        print(response.text[:100])
        body = response.body#直接是bytes,response.text是str
        encodings = ['

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注