简介
理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关系不大,。但是,总有相对顺手、简单的。
目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。
但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java、go(适合高并发),因为我们的目标不是搜索引擎,因此我选用python来学些爬虫。
学习之路如下可以参考下面的步骤
基础:
- 了解爬虫
- 学习Python基本语法,并熟练使用
- 学习Python中关于爬虫的几个重要的内置库:urllib/http/Cookie等
- 学习正则表达式,beautifulsoup等解析网页的工具或包
- 利用上几步学习的至少爬取比较简单的网站,比如一些应用市场等等,不需要登陆
- 利用大型的框架爬取数据,例如PySpider等
高级:
- 学习利用工具分析网页请求流程、学习模拟登陆,拿新浪微博、知乎等需要登陆的网站进行练习
- 学习Python中关于多线程、多进程的东西,将以前写的代码改为多线程版本,提高效率
- 学习Python中的爬虫框架,或者自己写一个爬虫框架。 更高级的,还有验证码识别、js动态请求、js执行、代理IP等等。
接下来介绍其中实践过的几项
了解爬虫
爬虫简单的理解:通过程序模拟人操作网络发送请求,获取数据返回,清洗,筛选,整理出有用的数据,结构化保存数据,方便数据的浏览,计算,可视化,最终实现数字的描述型价值与预测型价值
把下面三篇文章读完,就有基本的概念了:
技术准备:Python基础
python 基础是学习python爬虫不可少的,python基础学习资源:
- Blog:廖雪峰的官方网站
- 视频:python 视频下载,python 视频在线