【前沿技术RPA】一文学会用UiPath实现PDF自动化_uipath入门到精通pdf(1)

最新推荐文章于 2024-05-06 21:04:39 发布

2401_84181704

最新推荐文章于 2024-05-06 21:04:39 发布

阅读量953

点赞数 12

分类专栏：程序员文章标签： rpa pdf 自动化

本文链接：https://blog.csdn.net/2401_84181704/article/details/138337255

版权

程序员专栏收录该内容

153 篇文章 1 订阅

订阅专栏

我们可以看到，要使用的最低Studio版本是2018.4.4或2019.2。在以前的Studio版本上安装包可能会导致问题。

在这里插入图片描述

接下来，您可能已经意识到这样一个事实：PDF 文件可以包含文本、图像，有时还可以包含实际上是秘密图像的文本。一种基本的识别方法是直接选择您感兴趣的元素。如您所见，选择文本很方便，而图像会作为块立即显现出来。稍后我们将了解如何处理这两种情况。
UiPath 有各种各样的活动和方法来满足您所有的 PDF 需求，并且我们根据它们的预期用途将它们分为两类：第一类，用于更大的文本块或整个文档；第二类，用于从 PDF 文件中提取特定的文本项，如名称、产品、发票值等。我们将从第一类开始，因为这是最简单的。

♊ 从 PDF 提取文本块或整个文档

⭐ 背景

我们要读取下图PDF，上部分是文本，下部分是图像。

在这里插入图片描述

⭐方法一：读取 PDF 文本

要读取整个 PDF 文档或页面，可以使用读取 PDF 文本活动。这非常简单：选择要读取的文件，操作将输出一个包含文件内容的文本变量。我们将结果保存为文本文件，并在消息框中显示，但您可以使用其他字符串操作修改生成的文本或从中提取信息。如下图：

在这里插入图片描述

Range 参数很重要，因为它定义了实际要读取的内容。可以将它设置为所有的页面，设置为All，或者设置为一个特定的页面，比如第 5 页或第 12 页，或者一系列页面，比如从第 3 页到第 7 页。我们有一个单页文档，因此可以将其设置为“全部”或 1。如下图：

在这里插入图片描述

我们希望把文本写入到一个txt文件中，并通过弹窗显示出文本。如下图：

在这里插入图片描述

让我们运行项目，获取如下结果。

在这里插入图片描述

当我们查看读取 PDF 文本操作的结果时，我们发现只有文档的文本部分被转换。文本的前两列存在，但下半部分是一个图像，系统已将其完全忽略。

⭐方法二：使用 OCR 读取 PDF

因此我们需要一个活动读取 PDF 中的图像，该操作名为使用 OCR 读取 PDF。顾名思义，它会使用光学字符识别来扫描PDF 文档中的图像，并将所有文本作为变量输出。它与非 OCR 同级操作略有不同，因为它需要 OCR 引擎。

我们只需在活动窗格中搜索 OCR 即可找到可用的引擎。Studio 集成了 Google、Microsoft 和 Abbyy 的 OCR 引擎。引擎本身具有在整个应用程序中遇到的常见 OCR 参数：如允许的字符、拒绝的字符、语言、缩放比例等。不同的引擎可能有不同的参数，因此，如果您需要关于其工作方式的详细说明，请务必观看高级用户界面交互视频。这里使用Tesseract OCR 引擎运行。另外，我们删除读取 PDF 文本活动。

在这里插入图片描述

接下来，配置OCR引擎，

在这里插入图片描述

您可以直接看到下半部分，也就是 PDF 的图像部分，现在它也被转换成了文本，这没有问题。但是，如果仔细观察，您会发现文档的文本和图像部分的两列交织在一起。这是因为大多数 OCR 引擎还不够智能，无法自动识别文档中的 2 列布局。实际上，ABBY 是个例外，因为它保留了文档结构。所以，在与本例类似的特定情况下，ABBY 能够分离列。

在这里插入图片描述

一般来说，对于 OCR 技术，值得注意的一点是，它的质量会随着源图像的质量降低而迅速下降。正如您在本例中看到的，最终结果在很大程度上取决于字体大小、字体风格和图像分辨率，这些因素不一定始终在您的控制范围内。因此，只要有可能，就不要使用 OCR 读取 PDF操作。需要注意的是，这两种读取 PDF 的操作是独立的：它们不需要打开其他应用程序，因此可以在后台运行。今天您将看到的大多数其他 PDF 方法都不具备这种特性，因此，如果后台操作对您很重要。

⭐方法三：屏幕抓取工具

抓取大文本块和小文本块的另一种方法是使用方便的屏幕抓取工具。在主工具栏中可以访问这种工具，它实际上是一个交互式向导，会为您生成所需的操作。点击下图按钮，打开屏幕抓取工具，

在这里插入图片描述

只需指定需要抓取的文本元素，UiPath 就会显示这个预览窗口，并提供一些选项。如果这是您第一次遇到，下面会说明它的工作原理：这是一个预览区域，显示在您刚才的选择中识别的文本元素。这是当前使用的抓取方法，如果单击此处的下拉列表，可以看到其他可用方法。而这个按钮用于在屏幕上指定另一个要抓取的元素。通常 UiPath 会检测出适合您的情况的最佳方法。

在这里插入图片描述

当我们通过在右侧的下拉菜单中选择抓取方法名称，并单击刷新来更改它时，预览会相应地更新。我们将使用默认的全文方法，并单击完成。在 UiPath 中，将新创建的序列连接到起始节点，并查看其内部。

在这里插入图片描述

如果在上一步中，我们选择了一种不同的抓取方法，比如 OCR，我们就会得到这些操作。

在这里插入图片描述

在本例中，这三种方法都有很好的效果，就像我们之前看到的：只有 OCR 方法可以读取图像和文本。

因此，这 3 种技术可以用来提取更大的文本段。现在，我们回顾一下！我们分析了从 PDF 文件中提取文本的方法，并使用了三种不同的方法进行该操作。

♋ 从 PDF 提取单个数据段

⭐ 背景

以一家中型公司为例，它面临着从一个月内生成的所有发票中提取特定数据的艰巨任务。PDF文件中所需的数据是信用额、到期余额和发票号。要手动提取此数据，将需要大量工时，但我们可以自动化此过程。让我们看看PDF自动化后，从PDF文件中提取特定数据是多么容易。

发票如下图，我们要获取总额。

在这里插入图片描述

⭐ 获取文本活动——Get Text Activity

对于普通 PDF 来说，有几个获取数据的选项，第一个是众所周知的获取文本操作。现在，此操作将只从这一特定文件中获取该特定文本元素的值。如下图，

Step1

在这里插入图片描述

Step2

在这里插入图片描述

Step3

在这里插入图片描述

Step4

在这里插入图片描述

结果

在这里插入图片描述

⭐ 录制器

获取文本也可以在录制器中访问，就在这里。只需指向您感兴趣的元素，UiPath 就会为您生成获取文本操作及其输出变量，无需其他操作，我们将在消息框中显示它。

Step1

在这里插入图片描述

Step2

在这里插入图片描述

Step3

在这里插入图片描述

Step4

在这里插入图片描述

Step5

在这里插入图片描述

录制器获得的结果与Get Text 活动一致，再此不过多赘述。

⭐ 从多个文件中获取

但是，假设您实际上想要从一系列类似的 PDF 发票中提取总值，而不是仅仅从一个文件中提取，应该怎么办？像大多数用户界面交互一样，获取文本操作使用选取器来识别正确的元素并获取其值。因此，正如您可能已经猜到的，我们需要对其进行一些调整，以扩展其作用域。

自动执行此操作的方法是使用修复功能。因为我们关闭了第一个 PDF 文件，所以选取器编辑器以红色显示验证，这意味着选取器无效，如下图。

在这里插入图片描述

出现如下界面，

在这里插入图片描述

但是，我们可以直接单击修复并指向另一个类似的元素，该元素也应该与当前选取器匹配，并且 UiPath 将尝试为您修复选取器，如下图。

在这里插入图片描述

在本例中，它是有效的，但由于情况并非总是如此，我们还可以手动修改它，看看具体结果如何。但是，这里要提醒一下：我们将不会讨论选取器的一般方面，而只是解释这个具体的示例。但我强烈建议您观看“选取器”视频，里面详细介绍了它们如何工作，如何编辑和调试它们。它们是用户界面自动化的核心部分，因而更好地理解它们会在其他情况下也有用。

因此，我们将取消这个操作，不保存更改，然后再次打开选取器。这一次两个 PDF 文件都打开了，并且初始的选取器是有效的。我们将选择在用户界面探测器中打开它，以便获得更好的视图，如下图。

在这里插入图片描述