python开源项目Scrapy抓取文件乱码解决

最新推荐文章于 2022-02-25 18:19:33 发布

banpai3782

最新推荐文章于 2022-02-25 18:19:33 发布

阅读量389

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/Byrd/p/4434463.html

版权

scrapy进行页面抓去的时候，保存的文件出现乱码，经过分析是编码的原因，只需要把编码转换为utf-8即可，代码片段

......

import chardet

......

content_type = chardet.detect(html_content)

#print(content_type['encoding'])

if content_type['encoding'] != "UTF-8":

html_content = html_content.decode(content_type['encoding'])

html_content = html_content.encode("utf-8")

open(filename,"wb").write(html_content)

....

这样保存的文件就是中文了。

步骤:

先把gb2312的编码转换为unicode编码

然后在把unicode编码转换为utf-8.

转载于:https://www.cnblogs.com/Byrd/p/4434463.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注