automa插件使用的一些实战经验2

本文讨论了在移动应用开发中,如何处理滑动分页的自动化抓取难题,包括元素高度获取的困扰、滚动加载数据的不稳定性和延迟处理的重要性。作者还探讨了在工程化场景下,如何避免重复下载并优化数据采集效率的问题。
摘要由CSDN通过智能技术生成

automa的工程还是要经常导出备份,因为经常出现突然模块消失的情况。
1 滑动分页条件区分
传统的页面都是有分页标签,这样你很容易知道,应该用分页来做。但是现在手机端的应用基本都是上滑就可以分页,再混合式开发的环境下,公司为了节省成本,大部分都可以实现一套代码,再不同形态环境做适配,而这样给我们做爬虫也造成了困难。
在控制台中执行,获取元素高度,通过判断,是可以的
1
但是使用automa中使用js条件模块却获取不到值,实际得不到,这是为何?

const elVal = document.getElementsByClassName('explorer-file-list-virtualized__container')[0];
return elVal.scrollHeight > elVal.clientHeight;

之所以出不来是因为,这个地方应该选择当前标签页
1
接下载我想着,干脆使用滚动元素,让页面中的数据全部加载进来,再循环,结果发现页面上明明有1000条数据,但使用document.querySelectorAll('.file-list-item').length却只得到20条,这是为何?
如果让他在每次循环后,进行滚动。
1
看结果,奇怪的是中间跳号,数据丢失了!
1
推理,出现跳行,可能因为根据垂直滚动的高度有关.于是设置为20,则发现界面在一点点动,数据会被重复插入。那么你怎么知道怎样才是合理的高度,勾选上滚动查看也是同样的问题,而且滚动的速度分页太慢。
1
2 延迟的处理
延迟的位置还是很重要,特别是悬停元素使用时.例如下图,因为最后一个悬停元素,点击后,会出现下载文件,因此再之前做一个延迟,防止多级浮动按钮没有出来。接着再关闭页签之前,也设置一个较长时间的延迟,因为下载文件还没有被发现之前就关闭当前页签,浏览器会忽略这次下载行为。因此需要补上。
1
3 重复执行的去重判断
技术性demo都没什么问题,但是一旦工程化,就复杂了。例如下面的工作流程,循环、子工作流、条件、滚动元素等基本都包含了,而且采集的数据也非常多,靠人力很难枚举各种情况,于是除了问题,又不想把之前的反复下载,如何解决呢?再使用过程中,下载文件到300多项时,浏览器崩溃,只下载了30%,再重复下载或者调试,浪费了不少时间,如何解决呢?
2
首先看为什么工作流出错,就停止工作流呢?因为这个地方默认值设置,就是这样。
1
可以调整为“继续运行”。
2
最容易想到为了防止重复采集,我把已经采集的文件名变量整理出来,然后写入到全局变量里面,接着再全局变量来判断。但是因为文件太多,所以只好写一个python脚本来生成目录清单的json文件

# -*- coding: utf-8 -*-
# @time    : 2024-01-14 10:41
# @author  : dzm
# @dsec    : 遍历文件目录
import os
import json

def ergocic(src):
    if os.path.exists(src):
        os.chdir(src)
        file_names = []
        for dir in os.listdir(src):
            if (os.path.isfile(dir)):
                # 文件
                pass
            else:
                # 目录
                for root,dirs,files in os.walk(dir):
                    for file in files:
                        src_file = os.path.join(src,root,file)
                        file_names.append(os.path.basename(src_file))
        # 将数组转json文件,encoding="utf8"和ensure_ascii=False都不能少,否则会中文会转义为unicode
        with open('文件清单.json','w',encoding="utf8") as f:
            f.write(json.dumps(file_names,ensure_ascii=False))
    else:
        print('目录不存在')


if __name__ == "__main__":
    src = r'D:\appworks\文件'
    ergocic(src)

虽然很快可以拿到数据,但是实时并不是所想的那么顺利,因为全局变量有字符限制。因此这条路行不通了。
1
有下面三个组件,但是我们访问不了google,怎么办呢?那是不是可以把数据存储在某一个服务中,然后再发送http请求去获取,再判重,嗯,这条路应该行的通。
1
原想着我把数据存储在mock网站上,结果提示下面的错误,这真实无语了。
1
于是用java写一个后台服务

import java.io.IOException;
import java.net.URISyntaxException;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

   @GetMapping("getCsnts")
    public ResponseResult<String> getCsnts() throws IOException, URISyntaxException {
        String pathName = "json/文件清单.json";
        Path path = Paths.get(getClass().getClassLoader().getResource(pathName).toURI());
        byte[] fileContent = Files.readAllBytes(path);
        String content = new String(fileContent, StandardCharsets.UTF_8);
        ResponseResult<String> resp = new ResponseResult<>(true);
        resp.setData(content);
        return resp;
    }

从返回结果中取值,然后给变量csnts赋值,因为我的响应值是这样的,所以写的是data,不要以为千篇一律都是这样的。
2
这样就可以减少文件下载次数了
2

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: AutoMA(自动运维管理系统)是一种用于管理和自动化IT运维流程的工具。它可以帮助组织更高效地管理软件和硬件资源,并减少人工干预。 AutoMA可以实现以下功能: - 资产管理:自动发现网络中的设备,并跟踪其配置和状态。 - 监控:通过收集系统性能数据和事件日志来监控网络和服务的健康状况。 - 自动化:通过设置规则和工作流来自动执行常见运维任务,如软件升级和故障恢复。 - 报告:生成关于网络和服务性能的报告,以帮助管理员了解和解决问题。 AutoMA通常作为一个独立的软件系统运行,但也可以作为其他IT管理工具的插件或模块使用。 ### 回答2: Automa是一个功能强大且易于使用的Python库,用于自动化Web浏览器和桌面应用程序的交互。它可以模拟用户在浏览器中的操作,例如点击链接、填写表单、提交数据等。 Automa使用非常简单。首先,需要安装Automa库。可以通过pip命令在命令行中输入“pip install automa”来安装。安装完成后,可以在Python代码中导入Automa库并创建一个Automa对象。 创建Automa对象后,可以使用对象的方法来模拟浏览器操作。例如,可以使用click()方法来点击链接或按钮,可以使用type()方法来填写文本字段,可以使用submit()方法来提交表单等。 Automa还提供了一些其他有用的方法,例如wait()方法可以使程序等待一段时间,直到某个元素出现在页面上;find()方法可以通过选择器查找页面上的元素。这些方法可以帮助我们在自动化的过程中进行条件判断和元素定位。 Automa还支持与桌面应用程序的交互。可以使用类似的方法来模拟鼠标点击、键盘输入等操作。通过与桌面应用程序的交互,可以实现一些复杂的自动化任务,例如自动打开应用程序、执行特定的操作、截取屏幕截图等。 总之,Automa是一个非常实用的自动化工具,可以帮助开发人员简化Web浏览器和桌面应用程序的自动化任务。它提供了简洁的API和丰富的功能,使得自动化任务变得更加容易实现和维护。无论是简单的浏览器操作还是复杂的桌面应用程序交互,Automa都可以提供有效的解决方案。 ### 回答3: Automa 是一种自动化工具,用于在 Windows 操作系统下进行图形用户界面 (GUI) 的自动化操作。它可以模拟用户的键盘输入和鼠标操作,实现自动执行重复任务或自动化测试。下面是 Automa 的详细介绍。 Automa 的主要特点包括以下几个方面: 1. 简单易用:Automa 提供简洁直观的 API,使得编写自动化脚本变得简单和容易上手。即使是没有编程经验的用户也可以快速上手。 2. 图形界面操作:Automa 可以模拟各种鼠标点击、移动、拖拽等操作,同时支持键盘输入,可以实现对 GUI 界面的完全模拟操作。 3. 文本识别:Automa 提供文本识别功能,可以识别图像中的文本,实现自动化文本操作,例如自动填写表单、读取文本内容等。 4. 图像识别:Automa 还提供图像识别功能,可以通过识别特定的图像区域来实现自动化操作。这对于处理一些没有文字标识的 GUI 界面非常有用。 5. 自动化测试:Automa 可以用于自动化测试,可以记录用户的操作序列并自动生成测试脚本,以便重复执行测试,节省时间和精力。 6. 多语言支持:Automa 支持多种编程语言,包括 Python、C#、Java 等,方便开发人员根据自己的喜好选择合适的语言进行开发。 总的来说,Automa 是一个功能强大且易于使用的自动化工具,可以帮助用户自动执行重复的任务和自动化测试。无论是普通用户还是开发人员,都可以通过 Automa 来提高工作效率,节省时间和精力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

warrah

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值