一、需求背景
某日午休后,HR小姐姐唉声叹气哭丧着脸,一边吐槽花了一早上时间收集招聘网站同行的岗位信息,复制了一早上才复制了一百条不到,什么破玩意,拿着2500工资,做着狗都不做的活,呜呜呜。。。数据都复制不完,还怎么分析岗位定薪。。。DDDD
突然一位人字拖、格子衫、大叉短裤、胡须扎堆、大肚腩、头顶寥寥无几飘逸秀发的男性社畜走过。HR小姐姐赶紧哭诉:K哥,K哥,救救我,救救我,帮我搞定这个招聘信息抓取,下班我请你吃饭!人字拖社畜85年男人老狗仍单身,羞嗒嗒答应下来:包在我身上,这简单,晒晒水拉!于是乎开始了以下一顿操作。
实际需求:根据岗位关键词在boss直聘上查询数据并抓取!
二、影刀RPA
本文使用的是影刀RPA工具,影刀RPA是一款基于人工智能的自动化流程机器人,能够模拟和执行人类在计算机上的各种操作,提高工作效率,减少人工错误,广泛应用于各种业务流程中。
官网链接:影刀
三、开发过程
(一)实现核心步骤
-
创建【岗位查询excel模板文件】:同行招聘抓取模板-职位关键词-Boss直聘.xlsx;
平台:固定为“boss”,预留参数以后拓展其他招聘平台
职位关键词:输入要查询的关键词
抓取链接:“查询广州”固定写“https://www.zhipin.com/web/geek/job?city=101280100”,查询其他地区的话需要修改后面的city参数,页面选中后复制city参数修改
最多每个抓取多少条数据:可自定义填写,不填写时默认100 -
RPA程序读取文件,遍历需要查询的关键字,查询并爬取对应数据;
-
处理抓取到的原生数据,并对数据做处理;
-
输出抓取最终结果excel表格。
(二)流程图
(三)影刀代码重点截图
四、招聘数据爬取工具使用教程
五、彩蛋
六、补充
抓取数据的方式有多种,但是切记切勿触犯法律,遵纪守法。
简单介绍抓取数据方式:
- 破解接口抓取:
利:直接从源头获取数据,速度快,效率高。
弊:需要一定的技术能力,可能需要破解加密等手段,有可能违反法律法规。
隐患:可能面临法律风险,数据安全性和隐私保护问题。- 影刀RPA抓取:
利:操作简单,不需要编程知识,可以模拟人的操作进行数据抓取,适用于各种场景。
弊:速度相对较慢,效率较低,对于大量数据的抓取可能会比较耗时。
隐患:如果过度使用,可能会对目标网站的服务器造成压力,甚至被封禁。