本文开始记录python相关得小tips,然后持续更新。
一般都是学习开发中遇到得一些小bug,需要百度一会才能找到合适得答案,所以这里记录,后续查找或者作为新人学习时解决问题,都是很好的资料。
一、爬虫篇:
1.写爬虫得时候,一般会往文件写入东西,而这时会发生exception:
UnicodeEncodeError: 'gbk' codec can't encode character ... ... bla bla bla
解决答案是:加上encoding utf-8
csv_file = open("neteasy.csv", "w", newline="", encoding='utf-8')
原理是:https://www.cnblogs.com/themost/p/6603409.html
2.当文件保存成csv时,如何打开?保证不乱码?
打开最好还是用excel而不是记事本或者notepad;不过,需要先用notepad或者记事本转码。
1中看到,我们是utf-8编码打开文件得,所以文件格式是utf-8,而excel默认事gbk编码去解析得,所以会出现乱码。
用notepad或者记事本进行转码并保存即可,然后用excel打开就是正常显示的了。
然后点击保存,再用excel打开:
3.scrapy安装
这里是windows平台,使用得pycharm软件。
在pycharm软件进行安装:在pycharm终端界面:
输入pip3 install scrapy,不过会提示出错;显示
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
这里需要手动下载:http://fstab.net/pypi/simple/twisted/
注意需要下载对应pyhon得版本,比如python3.7则需要下载:
前面是python版本,后面是计算机位数(64位),如果两个中任意一个信息有问题,则会报错:
(venv) D:\360Downloads>pip3 install Twisted-18.7.0-cp36-cp36m-win_amd64.whl
Twisted-18.7.0-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform.