常见自动化程序方案
所谓的自动化程序,就是用机器大批量地发起请求,拿到响应后再做处理。专业术语叫做
网页爬虫
或者网页机器人
。
模拟请求(基于代码或爬虫框架)
此方案需要我们至少熟悉一门编程语言(Python、Node.js、Java等),自行编写代码或者借助优秀的开源爬虫框架,实现数据获取。某些场景,还需要通过抓包分析目标网站的参数规则,然后通过组合式请求方能达到目的。
这里罗列下我用过或收藏且还在不断更新维护的框架:
名称 | 开发语言 | 简介 |
---|---|---|
Scrapy | Python | A fast high-level web crawling & scraping framework for Python. |
Pyspider | Python | A Powerful Spider(Web Crawler) System in Python. |
Nutch | Java | 一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。功能强大,支持 Hadoop 集群内运行 |
webmagic | Java | 一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速 |