scrapy创建项目
在文件夹里按下shift鼠标右击打开命令行,执行:
scrapy startproject projectname
cd projectname
scrapy genspider name http://www.lagou.com/zhaopin/
创建运行主程序 main
from scrapy import cmdline
cmdline.execute("scrapy crawl dbbook".split())
代理
爬虫被屏蔽,要加一个请求头部,模拟浏览器登录
在settings.py里加入如下内容就可以模拟浏览器了
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'
中文处理
本想着将爬取到的中文数据处理成数字的形式用向量来表达,但无奈试了一些方法始终不支持中文的匹配,于是乎就想出了,这么个不是方法的方法最少可以解决目前所需^_^,这也是极好的,以后再用其他方法吧。
接着上次的说,中文的问题终于解决了,原来是