各位亲爱的程序猿 / 媛们,今天咱要聊的这事儿,堪称 "数据界的扫地僧"—— 用影刀 RPA 写爬虫。啥?你说爬虫不就是写几行 Python 代码的事儿?年轻人,格局小了!当大佬们用 RPA 抓数据时,连键盘都在偷偷刷抖音,这才是真正的 "让机器代替人类搬砖" 的终极奥义。
目录
一、先给影刀 RPA 验明正身:这不是普通的 "鼠标键盘 Recorder"
二、实战教学:用影刀抓豆瓣电影 Top250,让 Python 程序员沉默
四、IT 大佬的灵魂拷问:影刀会取代 Python 爬虫吗?
一、先给影刀 RPA 验明正身:这不是普通的 "鼠标键盘 Recorder"
第一次听说影刀 RPA 的时候,我还以为是哪个产品经理拍脑袋想出来的 "鼠标录制神器"。直到亲眼看见同事用它 3 分钟爬完 100 页电商商品数据,而我写的 Python 脚本还在跟反爬机制斗智斗勇时,才明白这玩意儿简直是 "数据界的变形金刚"。
划重点:
- 它能像人类一样 "看屏幕操作",什么验证码、滑块验证在它面前都是弟弟
- 不需要写代码!不需要写代码!不需要写代码!(重要的事情说三遍)
- 支持 "录制 + 拖拽组件" 双模式,连测试小姐姐都能轻松上手
二、实战教学:用影刀抓豆瓣电影 Top250,让 Python 程序员沉默
上期我们已经向各位观众简单介绍了影刀RPA以及它的安装,没有安装或者不知道影刀RPA是什么的小伙伴可以查看上期博客
1、创建自动化指令,开启 "机器人打工" 模式
在影刀RPA应用主界面左上角点击“新建”——>选择PC自动化指令——>进入流程界面
由于影刀RPA是一个自动化流程工具,也就是“机器人”,没有独立思考的能力,只会不断地做着重复的事情,所以我们的下一步就是——打个样。
2、第一个流程(新手教程)
从打开的流程界面的左侧我们可以找到各式各样的指令,鼠标点击、键盘输入、新建excel......令人眼花缭乱≡(▔﹏▔)≡
从左侧上方的搜索框中找到“打开网页”选项,将其拖入中间的空白处,选择指定浏览器后将我们需要爬取的网址输入进去
设置完成之后点击上方运行,我们就可以惊奇的发现,哇哦(´▽`ʃ♡ƪ),他居然自己打开网页了,好高级(并非高级)。
此时我们的指令当中已经有了“打开网页”这一流程,那么我们的下一步是什么呢?
3、拖拽组件抓取数据(大佬进阶)
此时可能已经有眼尖的同学看到了,运行按钮的附近有个叫数据抓取的按钮,没座!!!数据抓取就是将我们要爬取的内容抓取为影刀RPA中的“对象”
点击数据抓取之后回到豆瓣电影TOP250的页面,根据左上角提示,找到我们要爬取的电影标题,长按ctrl键再点击鼠标左键抓取内容。
图中右上角的内容就是我们爬取到的数据
点击完成之后会自动插入“批量数据抓取”指令我们可以选择抓取的页数,这里我们直接一步到位,爬取全部电影标题数据!!
我们要想看到全部的电影标题要翻页,那么要怎么让机器人学会翻页呢?
找到“去元素库选择”, 点击“捕获新元素”
按照数据抓取的流程抓取下一页的按钮
注意:这里抓取的要是“超链接”的标签,不要是“行内元素”标签,不然爬取数据时到最后一页停不下来!!!(因为到最后一页的时候超链接标签消失,找不到会超链接直接停止,而行内元素不消失,我们的自动化流程会一直获取最后一页的数据)
并且获取到翻页按钮后点击编辑,勾选上innerText等于后页。
为什么? 因为每一页的链接内容不同,所以只能爬取两页,而将将识别url值改为识别文本内容之后便可以识别到每一页的翻页按钮。
4、保存数据(打工收尾)
左侧搜索框搜索“数据表格导出”指令,用于将刚刚保存到数据表格的数据导出到excel表格中。
5、运行流程,见证奇迹的时刻
点击 "运行" 按钮,看着机器人自己打开浏览器、翻页、抓取数据,你的鼠标和键盘终于可以彻底摸鱼了。这时候你可以打开王者荣耀,边打游戏边看着数据源源不断地流入 Excel—— 这才是 IT 大佬该有的工作状态!
数据展示
三、爬取更多的数据进入表格
既然我们以及能够获取全部电影标题进入表格,那么我们自然可以抓取更多的数据,好的,接下来我们逝逝就逝逝。
这次我们抓取电影标题下的导演以及主演列表
问题一:重新打开网页
获取到数据列表并转化为对象之后先别急着运行,因为我们在爬取完电影标题之后页面会停留在最后一页,此时翻页按钮无法使用,所以爬取导演以及主演列表就只能爬取最后一页的数据,因此我们需要在爬取导演以及主演列表之前重新打开首页页面
为了防止浏览器页面打开过多,最好在流程中加入关闭网页指令,运行结束之后关闭网页 。
问题二:清空数据表格
重新加入“打开网页”指令后运行,我们会发现excel表格中的数据变得特别多,仔细分析我们会发现就是刚刚爬取的电影标题和我们重新爬取的标题+导演列表数据重叠了。
点击下方“数据表格”可以发现我们每次运行自动化流程,数据表格中的数据会不断地累加,所以导出在excel表格中的数据就会不断变多。
这时只需要在抓取数据之前加上“清空数据表格”指令,便可清空不断累积的奖池
问题三: 数据单独一列
我们已经成功将数据导出到excel表格中,但是到这里,可能会有观众老爷们说:“主播主播,你的数据确实很好,但导出之后排版还是太丑了,可不可以把不同的数据放在不同的列里”。
可以兄弟,可以。由于我们在批量数据抓取的时候会把数据一股脑塞进数据表格,根本没有考虑数据在数据表格中的位置,简直太粗鲁了{{{(>_<)}}}
我们在批量抓取数据时可以选择不保存到数据表格
使用“写入内容至数据表格”指令将被我们转化的数据对象写入数据表格,并且这种方式可以指定数据的位置
写入的内容即为我们转化的数据对象
最终数据
四、IT 大佬的灵魂拷问:影刀会取代 Python 爬虫吗?
先说结论:不会。就像挖掘机不会取代螺丝刀一样,影刀和 Python 各有擅长的领域。
影刀的主战场:
- 业务流程复杂、页面交互多的场景(比如电商后台数据)
- 非技术人员需要快速上手的场景(运营、产品经理狂喜)
- 不需要深度定制,只想快速拿到数据的场景(摸鱼党必备)
Python 的主战场:
- 需要深度定制、处理复杂逻辑的场景(比如复杂反爬、数据清洗)
- 追求极致性能的场景(毕竟影刀是图形化界面,底层还是要靠代码)
所以正确的姿势是:大佬们用影刀处理 "重复性体力活",用 Python 处理 "高智商脑力活"—— 让工具做它擅长的事,你负责喝茶看报(不是)。
五、常见问题:当机器人 "罢工" 时,大佬如何救场?
Q1:影刀抓不到数据,提示 "元素未找到" 怎么办?
A:这时候别慌,打开 "元素检查" 工具,看看是不是网页结构变了。就像你让实习生去买奶茶,结果奶茶店改名了,你得重新告诉他地址。在影刀里更新一下元素定位规则就行。
Q2:运行流程时浏览器突然崩溃了?
A:记住大佬的口头禅:"重启能解决 90% 的问题"。先重启影刀和浏览器,如果还不行,检查一下电脑是不是开了太多程序 —— 机器人也是需要 "呼吸空间" 的。
Q3:影刀能爬微信公众号文章吗?
A:理论上可以,只要网页版能看到的内容,影刀都能抓。但记住:爬虫要有边界,别碰人家的用户隐私数据,不然容易收到 "律师函警告"—— 大佬也要遵守江湖规矩。
六、总结:工具是用来解放生产力的,不是用来制造焦虑的
很多人一听说 "RPA" 就觉得很高深,其实影刀的操作难度跟玩 "植物大战僵尸" 差不多 —— 都是拖拖拽拽就能赢。记住:IT 大佬的核心竞争力不是会用多少工具,而是知道什么时候用什么工具。
当别人还在为写爬虫代码熬秃头时,你已经用影刀喝着咖啡看数据自动流入表格了 —— 这,就是工具的力量。
最后送大家一句大佬箴言:能让机器人干的活,坚决不自己动手! 毕竟咱们程序员的脑子,是用来思考人生和写 BUG 的( ̄y▽, ̄)╭ 。
课后作业:用影刀爬一下你最喜欢的美食网站,把数据做成 Excel 表格,然后请我吃一顿 —— 这波不亏,毕竟大佬的教学都是干货!