在学爬虫时遇到的,与汉字编码有关。
具体是GET得到一串数据提取出了一段中文内容,然后直接print,发现失败了。
将字符的二进制写入了txt中,以utf-8形式打开是正常中文,于是尝试对数据text.decode("utf-8"),结果谜一般的失败了
但是我直接从直接存的文件里读出数据再decode是可以成功的,明明是一样的数据==
于是我写了个循环将字符串赋值
f=c.string #f是GET方式得到的数据
name=''
for i in f: name+=chr(ord(i)) #把f内容一个个存入name
print name.decode('utf-8') #decode
结果谜一样的成功了
"安卓壁纸"就是那串中文字符