python爬虫编码问题

问题描述

当使用requests爬取数据后,打印或者保存下来的数据出现了乱码问题,比如像下面这种情况

 

 

这种乱码的数据显然并不是我们需要的,所以我们需要将它转换成正常的中文数据


解决方案:

在对乱码处理的方法中,我们可以引入一个新的模块cchardet来帮助我们完成

首先需要安装一下

pip install cchardet

在对文本进行解码之前可以用cchardet先查看下文本的编码

 

 可以很明显的看到requests对网页的编码判断和cchardet对网页的编码判断明显不一样,经过我的测试,cchardet给出的编码方式是正确的

最后在实际的使用方式,我们可以这样使用

url = "http://www.fuxinmetal.com/aboutus.asp"
response = requests.get(url)
encoding_dict = cchardet.detect(response.content)
response.encoding = encoding_dict["encoding"]

 最后可以看看我的输出结果

 

 可以看到中文都能正常显示出来了

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值