python 爬虫学习初级问题笔记
编码问题
爬完之后文件显示乱码问题
编码格式不一样导致
在使用read()之后使用decode(“utf8”)就可以了
# 原代码
# res = urllib.request.urlopen(req).read()
# 调整后的代码
res = urllib.request.urlopen(req).read().res.decode("utf8")
写入系统时报错’\xa9’等
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 85194: illegal multibyte sequence
解决方法
在进行文件操作的时候规定写入时utf8格式
代码示例
# 原错误代码
# f = open(file_name,'w')
# 修改之后的代码
f = open(file_name,'w',encoding="utf-8")
其余的遇到了继续补充