爬虫实战:利用软件采集招聘信息(一)
(基于八爪鱼和后羿采集器软件——简易模式采集)
一、什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫(百度复制粘贴内容^^)。
说白了,爬虫就是利用工具抓取网页上的内容(数据、文本、图片等),是不是感觉写论文找数据不止翻年鉴了......爬虫工具除了python等编程语言(手写的代码),还有就是通过一些第三方软件来采集(如八爪鱼、后羿采集器、火车头采集器等等很多)。至于通过自己写代码的方式会在以后文章中介绍,本文从基础介绍利用软件傻瓜式爬虫,这种方式已经可以满足大部分采集需求,而且只需拖拉拽还不简单吗。
二、后羿采集器和八爪鱼介绍
这两款采集器是作者认为市面上相对最好用的两款采集软件。后羿采集器是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件