⭐方法二:使用 OCR 读取 PDF
因此我们需要一个活动读取 PDF 中的图像,该操作名为使用 OCR 读取 PDF。顾名思义,它会使用光学字符识别来扫描PDF 文档中的图像,并将所有文本作为变量输出。它与非 OCR 同级操作略有不同,因为它需要 OCR 引擎。
我们只需在活动窗格中搜索 OCR 即可找到可用的引擎。Studio 集成了 Google、Microsoft 和 Abbyy 的 OCR 引擎。引擎本身具有在整个应用程序中遇到的常见 OCR 参数:如允许的字符、拒绝的字符、语言、缩放比例等。不同的引擎可能有不同的参数,因此,如果您需要关于其工作方式的详细说明,请务必观看高级用户界面交互视频。这里使用Tesseract OCR 引擎运行。另外,我们删除读取 PDF 文本活动。
接下来,配置OCR引擎,
您可以直接看到下半部分,也就是 PDF 的图像部分,现在它也被转换成了文本,这没有问题。但是,如果仔细观察,您会发现文档的文本和图像部分的两列交织在一起。这是因为大多数 OCR 引擎还不够智能,无法自动识别文档中的 2 列布局。实际上,ABBY 是个例外,因为它保留了文档结构。所以,在与本例类似的特定情况下,ABBY 能够分离列。
一般来说,对于 OCR 技术,值得注意的一点是,它的质量会随着源图像的质量降低而迅速下降。正如您在本例中看到的,最终结果在很大程度上取决于字体大小、字体风格和图像分辨率,这些因素不一定始终在您的控制范围内。因此,只要有可能,就不要使用 OCR 读取 PDF操作。需要注意的是,这两种读取 PDF 的操作是独立的:它们不需要打开其他应用程序,因此可以在后台运行。今天您将看到的大多数其他 PDF 方法都不具备这种特性,因此,如果后台操作对您很重要。
⭐方法三:屏幕抓取工具
抓取大文本块和小文本块的另一种方法是使用方便的屏幕抓取工具。在主工具栏中可以访问这种工具,它实际上是一个交互式向导,会为您生成所需的操作。点击下图按钮,打开屏幕抓取工具,
只需指定需要抓取的文本元素,UiPath 就会显示这个预览窗口,并提供一些选项。如果这是您第一次遇到,下面会说明它的工作原理:这是一个预览区域,显示在您刚才的选择中识别的文本元素。这是当前使用的抓取方法,如果单击此处的下拉列表,可以看到其他可用方法。而这个按钮用于在屏幕上指定另一个要抓取的元素。通常 UiPath 会检测出适合您的情况的最佳方法。
当我们通过在右侧的下拉菜单中选择抓取方法名称,并单击刷新来更改它时,预览会相应地更新。我们将使用默认的全文方法,并单击完成。在 UiPath 中,将新创建的序列连接到起始节点,并查看其内部。
如果在上一步中,我们选择了一种不同的抓取方法,比如 OCR,我们就会得到这些操作。