RPA使用案例(一)-----网页信息获取
前言:机器人流程自动化RPA,易于部署及其为企业带来的速度和敏捷性提升是其特性之一,因其可以将办公室工作自动化,提高生产效率。最近也在接手rpa项目,所以今天分享一个实用的rpa案例
一.使用rpa机器人获取网页信息的原因
最初一开始获取网页信息的办法就是爬虫,但是爬虫门槛较高,需要较高的代码能力和掌握爬虫原理,这就很鸡肋,虽然网上有很多开源爬虫,但是要将其修改成我们的目标爬虫也是很艰难,而rpa的出现避免了这些问题。
二.实用案例
最近接手了一个获取企查查网页信息的项目,现在就一步一步的分享用rpa的解决方案
1.根据需求确定流程框架
需求要求根据给出的excel表里的公司名称去企查查上查找对应企业的地址、法人、股东信息。
根据需求描述,大致框架就是:获取excel表里企业名称——在企查查查找该企业——判断是否存在所需要信息——获取信息——存入excel表——遍历excel表
2.表格格式
打开excel表后,可以看到第一行就四个index,需要填入信息的就是法人、地址、股东
3.开始制作流程
因为需求要求股东信息要单独重新创建一个excel,所以分成两个流程进行:
1.法人、地址信息获取
先把整体流程看一下
流程就是开始——确定一些变量——获取待查企业名称——判断是否已经完成ecxel表里所有数据——打开浏览器查找企业并获取待获取信息——存入excel——遍历
组件解释
确定初始位置:因为不能从index开始执行,第二行开始才是要处理的开始,所以创建一个变量j并赋值2。
公司名称列:确定公司名称index所在列,方便后面定位,创建变量i赋值1,变量类型为int32。。
地址列:确定地址index所在列,方便后面定位,创建变量c赋值1,变量类型为int32。
法人列:确定法人index所在列,方便后面定位,创建变量b赋值1,变量类型为int32。
提取公司名称:用上面定义的变量j和i来定位单元格,并获取单元格内容复制给变量inf
流程决策:判断inf变量是否为空,变量为空则说明excel表已经处理完毕,保存关闭excel表结束流程,若不为空继续流程。
企查查:打开浏览器并进行一系列浏览器操作
然后
遍历循坏条件:公司名称往下一行,实现遍历。
变量
2.股东信息获取
话不多说,上流程
大同小异的流程,展示一下不同的地方吧
上一个流程这里是获取文本,这里变成了一个数据抓取,数据抓取的话,就是把一个网页里同类型的数据抓取下来保存进一个datatable变量里,有人会问上一个流程为什么不使用数据抓取,ok,解释一下,法人和地址的话对于同一个公司的话是唯一的,而股东可以是一个也可以十多个,而使用数据抓取的话,同一网页界面必须得有相同的两个元素存在,所以后者使用了数据抓取,而在数据存入方面,基本都是一样,前者一个单元格里存入一个文本数据,而后者是将一个datatable存入一个单元格,循环、判断、遍历都是一样的。
三.成果展示
平均爬取一个公司的信息的时间为20s左右(当然也有电脑性能、网速的原因),虽然速度比不上爬虫快速,但rpa胜在逻辑清晰,编写简单上,现在看一下成果吧。
能、网速的原因),虽然速度比不上爬虫快速,但rpa胜在逻辑清晰,编写简单上,现在看一下成果吧。
那就这样愉快的结束了这一次分享咯。