python2 requests中文乱码

情况有多种:

1、只包含中文和ascii字符,网上流行的先设置encoding再取content或者text,这里不介绍了;

2、包含了中文、非ascii字符、甚至诡异的不可见字符占位文档首部。这种情况你们在网上很难找到解决办法(这是我借鉴了其他人再整理出来的)

解决办法:

2.1、不管乱码有多严重,先用一个兼容性很强的编码unicode_escape解剖开

2.2、根据之前的报错结合解剖过的unicode_escape编码内容检查错误。

      这一步是解决问题的关键,我将给你们看看我遇到的案发现场

     

     车祸现场1:文档首部充斥着不可见字符,我收到了\ufeff的报错信息,replace掉解决

车祸现场2:\xa9非中文字符,也非ascii字符,我收到了\xa9的报错信息,replace掉解决

 

2.3、解决错误,再decode('unicode_escape')。

问题解决。借鉴链接:

https://www.cnblogs.com/hahaxzy9500/p/7685955.html
https://www.cnblogs.com/xiaoqi/p/5101795.html
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值