如何处理类似“\320\234..... ”这类编码字符

        写网页爬虫的时候遇到了"\320\243\321\351\302\353\264\355\316\363"这种字符串,瞬间懵逼了,没见过啊,网上基本没什么资料,google后发现这其实就是8进制的写法,结合网页弹窗发现这串代码对应“校验码错误”,分析得出应该是2组数对应一个汉字,用python转码各种不成功,按照网上的方法str.decode('ISO-8859-1')(没记错应该叫“Latin-1”)得到的都是俄文和符号,我就郁闷了,突发奇想,网页是gbk编码,试试str.decode('gbk'),成了。。。但是不知道为什么。

         继续想。。。。发现\320\243 的二进制位 011 010 000 010 100 011  而校的gbk编码为D0 A3,完全对应不上啊,查了下发现将先将\320\243变换为16进制即为D0 A3(查扩展ASCII编码表也可以)……而不是将\320\243按位看二进制数。。。又查找了下gbk编码,校确实是D0A3。

到此,结贴。

附gbk编码表地址:http://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php

转载于:https://my.oschina.net/u/2269890/blog/674693

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值