写在之前
----最近在完成一项类似爬虫的工作:
通过UIpath从指定网站中获取结构化数据,
特性一: 多地区多账号—由于全国不同的地区, 用户名和密码不一样, 需要通过多个用户名和密码登录爬取数据.
特性二: 数据每日更新—定期的从网站中爬取最新的数据
难点: 网站限制登录需要输入验证码(12306的变态验证码不包含在内)
为了方便自动获取数据–实现自动登录
----------------------------正文开始--------------------------------
核心问题: 验证码识别
UIpath自带工具: uipath自带的图片识别activities---------OCR, 谁用谁知道, 识别率不足一成, 果断pass
网络请求(付费): 笔者选择了尖叫数据, (最初使用云打码, 听说云打码快不行了, 就放弃了, 感觉尖叫数据略略略正规), 识别一次1分钱, 10块钱可以识别1000次, 够用了, 大家如果要使用,先试用试用 ,不要一次性充太多)
一. 自动登录主流程
step1: 输入用户名和密码
step2: 验证码截屏和调用网络请求识别(这里验证码是不可以另存的, 另存的图片不一定是你看到的图片)
(验证码识别的内容下面详细介绍)
step3: 输入验证码登录