最近很多朋友问我,我在自学爬虫,学到什么程度可以去找工作呢?
这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考。
学到哪种程度
暂且把目标定位初级爬虫工程师,简单列一下吧:
(必要部分)
-
语言选择:一般是了解Python、Java、Golang之一
-
熟悉多线程编程、网络编程、HTTP协议相关
-
开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
-
反爬相关,cookie、ip池、验证码等等
-
熟练使用分布式
(非必要,建议)
-
了解消息队列,如RabbitMQ、Kafka、Redis等
-
具有数据挖掘、自然语言处理、信息检索、机器学习经验
-
熟悉APP数据采集、中间人代理
-
大数据处理(Hive/MR/Spark/Storm)
-
数据库Mysql,redis,mongdb
-
熟悉Git操作、linux环境开发
-
读懂js代码,这个真的很重要
如何提升
随便看看知乎上的教程就可以入门了,就Pyt