Scrapy的Response 编码格式

最新推荐文章于 2024-01-31 10:59:00 发布

Ju_Sang

最新推荐文章于 2024-01-31 10:59:00 发布

阅读量1.0w

点赞数 4

分类专栏：爬虫文章标签： Scrapy response.body response乱码

本文链接：https://blog.csdn.net/jusang486/article/details/82992752

版权

3 篇文章 0 订阅

订阅专栏

当通过spider 发出请求之后会返回response。response是一个类，其中包括一些内置的属性。

1. response.url 返回请求地址

2.response.body 返回请求内容

这里需要注意，body类型是str，所以body的内容编码类型是爬取页面的原类型。

# 根据需求转化 response.encoding
response.body.decode(response.encoding)

例如最近就遇到抓取内容涉及中文时乱码：“\xe6\x80\xa7\xe4\xbc\xa0”

在chardet.detect(response.body) 显示乱码是 UTF-8编码，那么可以通过下列方式转化编码：

response.body
# 输出的是\xe7\x96\xbe\xe7\x97\x85\xe7\x9a\x84\xe6\xa6\x82\xe8\xbf\xb0

response.body.decode('utf-8')
# 转码后输出：“疾病的概述"”

优惠劵

关注关注