八爪鱼的简单应用

知道我是做文献计量学的,懂得一些文献数据爬取的知识,因此,最近有小伙伴向我请教微博数据爬取的问题。先说说自己,我是通过编程的方式通过post get模拟请求获取数据的,还有一种是webdriver的方法,就是可视化地模拟人的动作,速度比较慢。鉴于他什么编程知识都没有,因此给他推荐了现有的网络数据爬取工具。据我所知,八爪鱼和火车头都是比较成熟的数据爬取工具。先来说说使用工具获取数据的优缺点。优点:不需要编程,对于经常需要的数据,工具已经封装好了特定的功能,可以说使用现有工具获取数据为害怕编程的小伙伴提供了一扇窗。缺点:不能灵活地随心所欲的获取想要的数据和数据格式。

写这篇博文,希望能够帮助到像我小伙伴那样对编程一点不懂,刚刚接触网络爬虫的人。这是一篇最简单的八爪鱼介绍的博文,这是一篇入门级别的八爪鱼工具介绍的博文,阅读这篇博文只能让你对该工具有大致了解,并不能百分百满足你的需求。重要的事情反复说三遍。

首先是下载安装八爪鱼工具。网址:http://www.bazhuayu.com/ 下载后点击setup安装即可,没什么可讲的。如果连这步都不会,也就和互联网说再见了。

这是打开后的主界面,其中 简单采集 选项是八爪鱼工具已经帮用户封装好的工具,只需输入简单的步骤就可以完成采集,相对的,功能比较单一,不一定能满足你对数据的要求。右边 自定义采集 选项需要用户自己编写规则,说是编写规则,其实不需要写代码,模拟点击就好。可以这么说,自定义 采集 基本能满足用户对数据的要求,推荐具有一定编程思维的小伙伴或者对八爪鱼工具有一定了解的小伙伴拓展使用。当然最好先试着采集小部分数据,看看是否满足你的要求。下图是点击简单采集后的对应模板,选择你需要的模板,根据提示一步步执行即可。这边可能需要输入你的账号密码,比如爬取微博数据时,需要输入你的账号密码,其中登录时候的验证码工具会自动帮你搞定。ps要真实的账号密码哦。

下图是点击自定义的界面。需要输入网址等信息,然后自己选择需要获取的数据。以百度首页为例,输入网址后,选择保存网址。

下图是八爪鱼打开对应网址的内容,跟在浏览器里打开的并无二样。

我们以爬取百度首页下面的 “把百度设为主页” “关于百度” “About baidu” “百度推广”这几项内容为例。首先点击第一个元素 “把百度设为主页”,得到下图。根据小窗口的对应指令进行选择,例子中我们选择选中全部,那么上面4个内容都会被选中,在弹出的窗口中,选择 “采集以下链接文本” 然后,如果你只想获得这些数据(这些类型的数据)在弹出的窗口中选择“保存并开始采集”,如果你还想获取其他数据,重新点击其他元素即可。最后导出数据为对应格式,你就获得了相应的数据。再通过其他方法对数据进行预处理即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值