八爪鱼的简单应用

最新推荐文章于 2025-03-06 21:30:30 发布

Gavin在努力

最新推荐文章于 2025-03-06 21:30:30 发布

阅读量8.7k

点赞数

分类专栏：网络爬虫文章标签：八爪鱼数据爬取

本文链接：https://blog.csdn.net/u011561033/article/details/85156720

版权

网络爬虫专栏收录该内容

1 篇文章

订阅专栏

知道我是做文献计量学的，懂得一些文献数据爬取的知识，因此，最近有小伙伴向我请教微博数据爬取的问题。先说说自己，我是通过编程的方式通过post get模拟请求获取数据的，还有一种是webdriver的方法，就是可视化地模拟人的动作，速度比较慢。鉴于他什么编程知识都没有，因此给他推荐了现有的网络数据爬取工具。据我所知，八爪鱼和火车头都是比较成熟的数据爬取工具。先来说说使用工具获取数据的优缺点。优点：不需要编程，对于经常需要的数据，工具已经封装好了特定的功能，可以说使用现有工具获取数据为害怕编程的小伙伴提供了一扇窗。缺点：不能灵活地随心所欲的获取想要的数据和数据格式。

写这篇博文，希望能够帮助到像我小伙伴那样对编程一点不懂，刚刚接触网络爬虫的人。这是一篇最简单的八爪鱼介绍的博文，这是一篇入门级别的八爪鱼工具介绍的博文，阅读这篇博文只能让你对该工具有大致了解，并不能百分百满足你的需求。重要的事情反复说三遍。

首先是下载安装八爪鱼工具。网址：http://www.bazhuayu.com/ 下载后点击setup安装即可，没什么可讲的。如果连这步都不会，也就和互联网说再见了。

这是打开后的主界面，其中简单采集选项是八爪鱼工具已经帮用户封装好的工具，只需输入简单的步骤就可以完成采集，相对的，功能比较单一，不一定能满足你对数据的要求。右边自定义采集选项需要用户自己编写规则，说是编写规则，其实不需要写代码，模拟点击就好。可以这么说，自定义采集基本能满足用户对数据的要求，推荐具有一定编程思维的小伙伴或者对八爪鱼工具有一定了解的小伙伴拓展使用。当然最好先试着采集小部分数据，看看是否满足你的要求。下图是点击简单采集后的对应模板，选择你需要的模板，根据提示一步步执行即可。这边可能需要输入你的账号密码，比如爬取微博数据时，需要输入你的账号密码，其中登录时候的验证码工具会自动帮你搞定。ps要真实的账号密码哦。

下图是点击自定义的界面。需要输入网址等信息，然后自己选择需要获取的数据。以百度首页为例，输入网址后，选择保存网址。

下图是八爪鱼打开对应网址的内容，跟在浏览器里打开的并无二样。

我们以爬取百度首页下面的 “把百度设为主页” “关于百度” “About baidu” “百度推广”这几项内容为例。首先点击第一个元素 “把百度设为主页”，得到下图。根据小窗口的对应指令进行选择，例子中我们选择选中全部，那么上面4个内容都会被选中，在弹出的窗口中，选择 “采集以下链接文本” 然后，如果你只想获得这些数据（这些类型的数据）在弹出的窗口中选择“保存并开始采集”，如果你还想获取其他数据，重新点击其他元素即可。最后导出数据为对应格式，你就获得了相应的数据。再通过其他方法对数据进行预处理即可。