【前沿技术RPA】一文学会用UiPath实现PDF自动化_uipath入门到精通pdf

本文链接：https://blog.csdn.net/2401_84160041/article/details/138238134

⭐方法二：使用 OCR 读取 PDF

因此我们需要一个活动读取 PDF 中的图像，该操作名为使用 OCR 读取 PDF。顾名思义，它会使用光学字符识别来扫描PDF 文档中的图像，并将所有文本作为变量输出。它与非 OCR 同级操作略有不同，因为它需要 OCR 引擎。

我们只需在活动窗格中搜索 OCR 即可找到可用的引擎。Studio 集成了 Google、Microsoft 和 Abbyy 的 OCR 引擎。引擎本身具有在整个应用程序中遇到的常见 OCR 参数：如允许的字符、拒绝的字符、语言、缩放比例等。不同的引擎可能有不同的参数，因此，如果您需要关于其工作方式的详细说明，请务必观看高级用户界面交互视频。这里使用Tesseract OCR 引擎运行。另外，我们删除读取 PDF 文本活动。

在这里插入图片描述

接下来，配置OCR引擎，

在这里插入图片描述

您可以直接看到下半部分，也就是 PDF 的图像部分，现在它也被转换成了文本，这没有问题。但是，如果仔细观察，您会发现文档的文本和图像部分的两列交织在一起。这是因为大多数 OCR 引擎还不够智能，无法自动识别文档中的 2 列布局。实际上，ABBY 是个例外，因为它保留了文档结构。所以，在与本例类似的特定情况下，ABBY 能够分离列。

在这里插入图片描述

一般来说，对于 OCR 技术，值得注意的一点是，它的质量会随着源图像的质量降低而迅速下降。正如您在本例中看到的，最终结果在很大程度上取决于字体大小、字体风格和图像分辨率，这些因素不一定始终在您的控制范围内。因此，只要有可能，就不要使用 OCR 读取 PDF操作。需要注意的是，这两种读取 PDF 的操作是独立的：它们不需要打开其他应用程序，因此可以在后台运行。今天您将看到的大多数其他 PDF 方法都不具备这种特性，因此，如果后台操作对您很重要。

⭐方法三：屏幕抓取工具

抓取大文本块和小文本块的另一种方法是使用方便的屏幕抓取工具。在主工具栏中可以访问这种工具，它实际上是一个交互式向导，会为您生成所需的操作。点击下图按钮，打开屏幕抓取工具，

在这里插入图片描述

只需指定需要抓取的文本元素，UiPath 就会显示这个预览窗口，并提供一些选项。如果这是您第一次遇到，下面会说明它的工作原理：这是一个预览区域，显示在您刚才的选择中识别的文本元素。这是当前使用的抓取方法，如果单击此处的下拉列表，可以看到其他可用方法。而这个按钮用于在屏幕上指定另一个要抓取的元素。通常 UiPath 会检测出适合您的情况的最佳方法。

在这里插入图片描述