Python 采集中文乱码问题解决方案

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

  import chardet

  thischarset = chardet.detect(strs)["encoding"]

     来获取该文件或页面的编码方式 

    或直接抓取页面的charset = xxxx 来获取

 

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

    strs = strs.decode("UTF-8","ignore").encode("UTF-8")

    decode的第二个参数表示遇到非法字符时所采取的方式

    该参数默认为抛出异常.

 

 

转载于:https://www.cnblogs.com/vingi/articles/2822567.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值