网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本。按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据。
![8ada53ef3c94f9e6dc5fed466ddf91ae.png](https://img-blog.csdnimg.cn/img_convert/8ada53ef3c94f9e6dc5fed466ddf91ae.png)
(图1)
这就是一个网页源码的dom结构,我们需要一级一级指定抓取的标签,如下图:
![22a8ae9e47256d16408bd7bc98e506cd.png](https://img-blog.csdnimg.cn/img_convert/22a8ae9e47256d16408bd7bc98e506cd.png)
(图2)
图2是java程序使用webmagic框架开发的爬虫程序,这段代码就是抓取对应的标签,和图1是相对应的,运行后得到结果如下:
![68f4e29294630203fa5df5f80b9a8e79.png](https://img-blog.csdnimg.cn/img_convert/68f4e29294630203fa5df5f80b9a8e79.png)
当然,以上是专业程序员干的事情,但是有助于我们理解爬虫工具工作的原理。非专业人员可以通过爬虫工具来自己爬取数据。
1.首先输入你要爬取的网站的网址,点击“开始采集”。
![3a301855c0eb4efc6e20390a6ce794ba.png](https://img-blog.csdnimg.cn/img_convert/3a301855c0eb4efc6e20390a6ce794ba.png)
2.工具自动识别到当前页面是多页数据,会默认翻页采集,我们只要点击“生成采集设置”即可。
![347b5d9543174aa43a39a9c8c417e072.png](https://img-blog.csdnimg.cn/img_convert/347b5d9543174aa43a39a9c8c417e072.png)
3.点击要采集的详细链接,这里我们要采集这个网站上所有的化工产品的信息,所以点击中文名称这一列某个链接,再点击右侧“点击该链接”,如下图
![70200d1c7f17f377c5e46de0ab5a57cd.png](https://img-blog.csdnimg.cn/img_convert/70200d1c7f17f377c5e46de0ab5a57cd.png)
4.爬虫工具进入到详细链接的页面,这个页面的数据也就是我们要爬取的,点击“生成采集设置”,会生成爬虫工具最后的爬取流程,如下图所示,爬虫工具就会按照这个流程给我们采集数据,直到数据采集完成。
![b3f693a914bf8092d23d7202d341feaf.png](https://img-blog.csdnimg.cn/img_convert/b3f693a914bf8092d23d7202d341feaf.png)
![f1676c7df005dd3b4df8e94fe41177d4.png](https://img-blog.csdnimg.cn/img_convert/f1676c7df005dd3b4df8e94fe41177d4.png)
5.点击“采集”按钮,爬虫工具正式开始运行,爬虫工具工作时如下:
![59961eb9b68b9bc52e3e8551afc6ff6f.png](https://img-blog.csdnimg.cn/img_convert/59961eb9b68b9bc52e3e8551afc6ff6f.png)
列表的这些数据都是爬虫采集到的,我们还可以对这些采集的数据做处理,可以选择导成Excel文档,或者直接导入数据库,这些是后续分析数据,对数据做进一步处理的必要条件。有了这些基础数据,可以对数据做分析,得出一些商业依据,可以作为商业决策时的支撑。比如以前沃尔玛就通过他们的大数据,发现买尿不湿的奶爸喜欢一起买啤酒,于是就把尿不湿和啤酒摆在一起,啤酒的销量大增,这个就是大数据的价值。
这次讲的爬虫工具使用,只是比较基础的应用,希望对大家有帮助。科技漫步者带你漫步科技,后续会不断更新相关知识,欢迎关注。