一个好的爬虫工程师需要了解各种IT技术,因为不同的网页结构不同,使用的技术不同,爬取要求不同,所以写爬虫就要熟悉各种网络开发相关的技术。以下是爬虫涉及的一些技术要点。
1. 前端相关:包括html结构,js,ajax请求过程,css,h5,cookie,session
2. 网络相关:request和response流程,http知识,代理proxy的使用
3. 存储相关:sql,database,NoSQL,redis,文件读取
4. 其他知识:Chrome调试,正则表达式,xpath,文件编码,分布式
爬取数据以后还要做数据清洗,文本处理,数据分析,数据展示以及数据挖掘等,将会涉及更多的炫酷技能如npl,spark,machinelearing等