写网页爬虫的时候遇到了"\320\243\321\351\302\353\264\355\316\363"这种字符串,瞬间懵逼了,没见过啊,网上基本没什么资料,google后发现这其实就是8进制的写法,结合网页弹窗发现这串代码对应“校验码错误”,分析得出应该是2组数对应一个汉字,用python转码各种不成功,按照网上的方法str.decode('ISO-8859-1')(没记错应该叫“Latin-1”)得到的都是俄文和符号,我就郁闷了,突发奇想,网页是gbk编码,试试str.decode('gbk'),成了。。。但是不知道为什么。
继续想。。。。发现\320\243 的二进制位 011 010 000 010 100 011 而校的gbk编码为D0 A3,完全对应不上啊,查了下发现将先将\320\243变换为16进制即为D0 A3(查扩展ASCII编码表也可以)……而不是将\320\243按位看二进制数。。。又查找了下gbk编码,校确实是D0A3。
到此,结贴。
附gbk编码表地址:http://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php