最近刚接触爬虫,爬虫很好玩,但是,编码超烦人!!!
随便爬个东西,想打印在命令行,就会发现以下问题:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 10: illegal multibyte sequence
最终,我选择了使用 jupyter notebook
来日常测试代码,打印什么字符都没问题了,但是在 写入文件时 又会遇到以上的问题。
在我的不懈努力下,终于找到了解决方法:
使用 codecs 模块
具体使用如下 :
import codecs
f = codecs.open('test.txt', 'w', 'utf-8') # test.txt 也可以换成 test.csv
然后再写入的时候就不会发生错误了。
还有更多的方法,目前还没有都试过,可以参考博客:Python2向文件写入Unicode字符