爬虫入门容易。随便拉个智商正常的大学生,不用一个星期就能教他会爬豆瓣。如果一直停留在仅仅爬爬豆瓣电影,采黄图之类的水平,是很难提升很难找到工作的。
最基本的,你要会:
* 基本计算机知识,计算机网络、操作系统等
* 基本工具的使用:fiddler抓包发包,伪造请求。chrome控制台,清cookie,js打断点。
* Pyspider/Scrapy等爬虫框架。
* NoSQL、SQL
* 在linux下开发加分,文档写得好看加分,热爱开源常在GitHub混加分。
说说爬虫工作中所需但容易被别人忽略的知识:
* 前端知识:很多人觉得爬虫不用懂js。当你遇到一些反爬虫很厉害的网站,在混淆的js代码里面做手脚,每次请求头部都一堆莫名其妙的东西。你不懂点js压根不知道怎么下手。
* 计算机基础知识:你可能会用框架了pyspider,scrapy都用得很溜,写个爬虫半个小时就搞定。爬个豆瓣没什么关系,但是数据量一大,问题就出来了。pyspider用数据库去重,所有任务都写入数据库里,爬了千万级别数据的时候操作时间都花费在数据库操作上面;scrapy可以用Redis去重,但是128G内存也有爆的时候。这时候框架就不满足你的需求你,你需要去改,用个布隆过滤器什么的。这不单单是爬虫的问题了。
我觉得吧,爬虫学到你基本上可以想采谁就采谁。不满足仅仅写爬虫,自己还去写写代理池啊之类的,捣鼓下pyspider的源码啊之类的。你就可以胜任一份爬虫工作了。