情况有多种:
1、只包含中文和ascii字符,网上流行的先设置encoding再取content或者text,这里不介绍了;
2、包含了中文、非ascii字符、甚至诡异的不可见字符占位文档首部。这种情况你们在网上很难找到解决办法(这是我借鉴了其他人再整理出来的)
解决办法:
2.1、不管乱码有多严重,先用一个兼容性很强的编码unicode_escape解剖开
2.2、根据之前的报错结合解剖过的unicode_escape编码内容检查错误。
这一步是解决问题的关键,我将给你们看看我遇到的案发现场
车祸现场1:文档首部充斥着不可见字符,我收到了\ufeff的报错信息,replace掉解决
车祸现场2:\xa9非中文字符,也非ascii字符,我收到了\xa9的报错信息,replace掉解决
2.3、解决错误,再decode('unicode_escape')。
问题解决。借鉴链接:
https://www.cnblogs.com/hahaxzy9500/p/7685955.html
https://www.cnblogs.com/xiaoqi/p/5101795.html