上一小节老袁给晓白介绍了python-web开发工程师主要做什么,并从初中高级三个层次分析了这个岗位的具体需求。本节继续介绍python爬虫工程师的一些具体要求。
python爬虫工程师
该岗位做什么?
python爬虫工程师主要是从网上爬取各种数据,然后对数据做整理和简单的存储。具体的职责如下:
- 设计并实现公司的爬虫软件
- 设计并实现网络数据的抓取规则,可以定期爬取指定的网站
- 设计爬虫策略和防屏蔽规则,提高网页抓取效率和质量
- 实现数据提取,清洗,结构化,数据库存储和统计分析
爬虫工程师的工作结果是公司做数据分析的基础,公司在拿到这些数据以后,再对数据做进一步的分析,统计和图形化展示。
岗位的具体需求
那python爬虫开发岗都有哪些具体需求呢?我们先来看一个公司爬虫开发的岗位职责和岗位要求,如下图。
该公司这个岗位的薪资给到7---10K,属于一个初中级的python爬虫开发岗位。该岗位的爬虫要求写的比较详细,总结如下:
- 首先对python基础有一定的要求,要求精通python(第2条)。
- 对linux操作系统有要求,估计该公司的爬虫是运行在linux操作系统上面,所以要求熟悉linux操作系统的python开发(第2条)。
- 该公司的爬虫应该是使用scrapy框架来构建的,所以要求熟悉python爬虫框架scrapy和一些爬虫工具(第2条)。
- 熟悉关系型数据库mysql,非关系型数据库mongodb,可用作缓存的数据库redis。(第3条)
- 熟悉http协议(第4条)。网页数据就是基于http协议传输的,爬虫的主要工作就是抓取http中的一些数据,再对数据进行提取。
- 熟悉用作字符匹配,提取数据的正则表达式。熟悉页面分析工具xpath和css选择器。这些技能都是提取页面数据必备的。(第4条)
- 因为很多网站登录都需要输入验证码,所以需要了解常用验证码技术及爬虫模拟输入验证码。(第4条)
- 很多网站会有一些反爬策略,所以该公司有一些解决反爬问题策略的要求。(第5条)
那么薪资更高的爬虫岗位的要求如何呢?下面有三张截图,前两张是两个薪资给到10K---15K的爬虫岗位,最后一张是一个薪资给到15K---25K的爬虫岗位。我们可以先一下他们的具体要求。
薪资10---15K
薪资10---15K
薪资15---25K
从上面的截图我们可以总结更高薪资的爬虫岗位有如下更多的要求。
- 更多的工作经验,尤其是大型电商网站,移动端应用数据爬取的经验
- 有大数据量,高并发,海量数据爬取的经验
- 熟悉分布式爬虫
- 熟悉反爬及破解技术
- 掌握更多的编程语言
- 掌握一些python后端开发框架
所以,如果你想开启自己的爬虫职业生涯,就应该按照文中总结的岗位要求出发。把python基础打好,掌握爬虫的基本原理和爬虫的编程,要能够理解和分析前端代码,理解HTTP通信原理,能够熟练的使用爬虫相关的包,能够熟练使用python的爬虫框架比如scrapy。因为有些爬虫需要和服务端结合,所以也要熟悉一些python后端开发框架,
如果想在爬虫领域有更大的发展,拿到更高的薪资,那就需要掌握分布式爬虫的设计,做更多类型爬虫的开发,接触更多大数据高并发爬虫的设计和开发。
关于爬虫的岗位我们就先聊到这,下一小节我们说一下自动化测试,自动化运维和人工智能等于python相关的岗位。