出现这了这个报错,意思是说gbk无法编码\xxx
在抓一些网页的源代码的时候,用uft-8写入出现这了这个报错,意思是说gbk无法编码这些内容,这个时候改进的方式:
也就是在后面加上编码格式为:encoding = "utf-8"就好了
顺便,下面讲一下encoding和decode的区别:
- decode是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312’),表示将gb2312编码的字符串str1转换成unicode编码。
- encode是将unicode编码转换成其他编码的字符串,如str2.encode(‘gb2312’),表示将unicode编码的字符串str2转换成gb2312编码。
因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码