python爬虫 中文乱码 解决方案

返回数据出现中文乱码,在使用Python练习网络爬虫技术的过程中,几乎比可避免,本文将使用chardet库,只通过代码的形式来解决这一难题。

先上结论

1.运行后出现乱码解决方法        

pip install chardet

导入chardet库,的安装命令

#导入chardet库
import chardet
#获取浏览器请求头的字符集(myhtml为储存源码的变量)
encoding = chardet.detect(myhtml.content)['encoding']
# 设置响应的字符集(myhtml为储存源码的变量)
myhtml.encoding = encoding

导入chardet库,检测网页中请求头的字符集,再进行对应的转码

2.保存在office办公软件出现乱码解决方法

with open("test.txt", 'w', encoding="GB2312") as file:
    file.write("123中文字符")

用word,excel等软件打开文件,默认读取的编码格式为GBK或GB2312,使用其他编码格式时容易出现乱码。

乱码出现的原因

在网页爬取过程中,乱码问题可能源自两个主要方面。首先,有些网站在响应头中已经明确指定了字符集,而有些则没有。如果没有指定字符集,requests 库会根据HTTP协议中的规定进行猜测,但这种猜测有时可能不准确,导致显示乱码。

在实际操作中,如果您从某个网站获取的内容出现乱码,建议查看响应头(response headers)中的 Content-Type 字段,检查是否包含了 charset 信息,然后根据这个信息设置 response.encoding。如果问题仍然存在,可能需要深入检查网站的响应头以及响应内容是否正确。

其次,一些网站采取了反爬虫措施,例如通过 JavaScript 加载内容,对爬虫进行检测,或者返回经过混淆的数据。在这种情况下,简单的请求可能无法获取到完整的、可解析的页面内容。

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值