在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬取的困扰。
下面总结的一部分工具其实都算是一些爬虫工具的高层封装、实用工具甚至是一些完善的商业服务,包括国内的和国外的。
工具&服务列表
Chrome 扩展
- Web Scraper:http://webscraper.io/
- Data Scraper:https://data-miner.io/
- Listly:https://listly.io/
- Mercury:https://mercury.postlight.com/
框架
- Scrapy:https://scrapy.org/
- PySpider:https://github.com/binux/pyspider
- Apify:https://sdk.apify.com/
商业服务
- Parsehub:https://www.parsehub.com/
- Dexi.io:https://dexi.io/
- Octparse:https://www.octoparse.com/
- Content Grabber:http://www.contentgrabber.com/
- Mozenda:https://www.mozenda.com/
- ScraperAPI:https://www.scraperapi.com/
- Diffbot:https://www.diffbot.com/
- Import.io:https://www.import.io/
- Embed.ly https://embed.ly/
- ScrapeStorm https://www.scrapestorm.com/
- Shenjianshou https://www.shenjian.io/
- Zaoshu https://zaoshu.io/
下面来对这些工具和服务进行简单的介绍和总结。
Web Scraper
它是一个独立的 Chrome 扩展,安装数目已经到了 20w。它支持点选式的数据抓取,另外支持动态页面渲染,并且专门为 JavaScript、Ajax、下拉拖动、分页功能做了优化,并且带有完整的选择器系统,另外支持数据导出到 CSV 等格式。另外它们还有自己的 Cloud Scraper,支持定时任务、API 式管理、代理切换功能。
![505d39d35cf75d6a404ea0b5f89c85b2.png](https://img-blog.csdnimg.cn/img_convert/505d39d35cf75d6a404ea0b5f89c85b2.png)
Web Scraper
官网:https://www.webscraper.io/
Data Scraper
Data Scraper 同样是一个 Chrome 扩展,它可以将单个页面的数据通过点击的方式爬取到 CSV、XSL 文件中。在这个扩展中已经预定义了 5w 多条规则,可以用来爬取奖金 1.5w 个热门网站。
不过这个扩展的使用是有限制的,免费版本每个月只能爬取 500 个页面,更多则需要付费。