处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题

转载 2016年08月29日 21:43:40

错误信息:

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence 

这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,
这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。 
而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。

[解决办法]

#将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,

#当然对于gbk等编码,处理同样问题的方法是类似的

strTest = strTxt.decode('utf-8', 'ignore')

return strTest

[补充]

默认的参数就是strict,代表遇到非法字符时抛出异常; 
如果设置为ignore,则会忽略非法字符; 
如果设置为replace,则会用?号取代非法字符; 
如果设置为xmlcharrefreplace,则使用XML的字符引用。 

matplotlib 使用和学习的资料

暂时没有时间学习这个,先把找到的资料保存一下 使用matplotlib的示例:调整字体-设置刻度、坐标、colormap和colorbar等          http://blog.cs...
  • carolzhang8406
  • carolzhang8406
  • 2015年04月09日 13:53
  • 3663

pip install遇到编码问题

pip install遇到 UnicodeDecodeError: 'ascii' codec can't decode byte 0xd5 in position 34: ordinal not i...
  • XiaoPANGXia
  • XiaoPANGXia
  • 2015年10月03日 13:27
  • 4429

python之字符编码解码

用VS做C++开发的人,肯定遇到过将工程的字符集在Multibyte与Unicode之间互相转换的经历,CString,char*的转换也是家常便饭,L,_T这些宏的使用,MultiByteToWid...
  • figo829
  • figo829
  • 2014年01月08日 23:21
  • 2608

【UnicodeDecodeError: '' codec can't decode bytes in position : illegal multibyte sequence】

今天在window平台下,用python读取一个txt文件出现下面错误: UnicodeDecodeError: 'gbk' codec can't decode bytes in position...
  • u013634684
  • u013634684
  • 2015年10月21日 16:40
  • 801

Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ

【背景】 问题参见: python2.7 urllib2 抓取新浪乱码 中的: 报错的异常是    UnicodeDecodeError: ‘gbk’ c...
  • u011089523
  • u011089523
  • 2016年08月29日 21:41
  • 3047

Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ

源地址:http://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/ ...
  • tzs_1041218129
  • tzs_1041218129
  • 2016年06月03日 19:10
  • 2640

Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ

【背景】 问题参见: python2.7 urllib2 抓取新浪乱码 中的: 报错的异常是    UnicodeDecodeError: ‘gbk’ codec can’t deco...
  • YMD8005
  • YMD8005
  • 2016年04月01日 09:04
  • 682

解决Django编码报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1······

之前在用Apache+mod_wsgi.so搭建Windows下Django服务器时,Apache报错,错误日志中写到: [:warn] [pid 7112:tid 200] mod_wsgi: C...
  • DongGeGe214
  • DongGeGe214
  • 2016年09月03日 20:15
  • 3260

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 3: invalid continuation byte

Exception: Traceback (most recent call last): File "********\python36\lib\site-packages\pip\compat...
  • wuhongrui09
  • wuhongrui09
  • 2017年07月05日 10:04
  • 2308

python3安装xadmin出现 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444

python3的环境安装xadmin时,直接pip install xadmin出现Downloading xadmin-0.6.1.tar.gz (1.0MB) 100% |████████...
  • qingche456
  • qingche456
  • 2017年02月27日 21:46
  • 3339
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题
举报原因:
原因补充:

(最多只允许输入30个字)