scrapy 遇到乱码怎么办？一招解决

最新推荐文章于 2024-01-31 10:59:00 发布

GaryLea

最新推荐文章于 2024-01-31 10:59:00 发布

阅读量1.6k

点赞数 3

分类专栏： scrapy python

本文链接：https://blog.csdn.net/Li_G_yuan/article/details/88185066

版权

python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

scrapy

4 篇文章 0 订阅

订阅专栏

XX交通委提醒您注意爬虫安全，网站千万条，安全第一条，编码不规范，亲人两行泪

在使用scrapy数据抓取过程中，经常会遇到这种情况（58这类自己专门设置了字符集反爬措施）除外

# 解决思路

download minddlewares中有个process_response方法，修改它即可

因为 response.body 是一个 str 因此，我们需要自己组装一个response，利用HtmlResponse可以完美解决

# 导入所需模块
from scrapy.http import HtmlResponse

 def process_response(self,request, response, spider):
        # 修改页面编码
        response = HtmlResponse(url=response.url, body=response.body, encoding='utf-8')
        return response

之后记得开启中间件~

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GaryLea

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
scrapy 遇到乱码怎么办？一招解决

XX交通委提醒您注意爬虫安全，网站千万条，安全第一条，编码不规范，亲人两行泪在使用scrapy数据抓取过程中，经常会遇到这种情况（58这类自己专门设置了字符集反爬措施）除外# 解决思路download minddlewares中有个process_response方法，修改它即可因为 response.body 是一个 str 因此，我们需要自己组装一个response，利用...
复制链接

扫一扫