【前沿技术RPA】一文学会用UiPath实现PDF自动化_uipath入门到精通pdf(2)

本文链接：https://blog.csdn.net/2401_84185145/article/details/138508198

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

安装 UiPath PDF 活动包；
使用读取 PDF 文本活动、使用OCR 读取 PDF活动和屏幕抓取向导，从 PDF 中提取大文本段；
从 PDF 文档中提取单段信息；
使用选取器从具有相同布局的多个文件中提取可变值；
使用锚点基准活动从一系列具有相同结构的 PDF 文件中提取可变值。

3️⃣ PDF自动化

♈ 前置知识

无论是原生PDF还是扫描PDF，UiPath 都允许您根据需要导航、识别和使用 PDF 数据。在我们继续之前，您应该已经熟悉了提取数据，以及如何使用和编辑选取器。对于这两个主题，都有单独的博文进行详细介绍，所以一定要观看这些博文，避免您在学习过程中未能完全理解其中的某些内容。

♉ 安装 UiPath PDF 活动包

首先，确保安装了处理 PDF 文件所需的所有活动和依赖项。如果活动面板中的搜索PDF结果为空，则意味着您必须安装它们。只需转到包管理器，搜索 PDF，然后安装 UiPath PDF 活动包。单击安装之后，务必单击保存，以便实际安装活动集，并更新项目依赖项。

在这里插入图片描述

我们可以看到，要使用的最低Studio版本是2018.4.4或2019.2。在以前的Studio版本上安装包可能会导致问题。

在这里插入图片描述

接下来，您可能已经意识到这样一个事实：PDF 文件可以包含文本、图像，有时还可以包含实际上是秘密图像的文本。一种基本的识别方法是直接选择您感兴趣的元素。如您所见，选择文本很方便，而图像会作为块立即显现出来。稍后我们将了解如何处理这两种情况。
UiPath 有各种各样的活动和方法来满足您所有的 PDF 需求，并且我们根据它们的预期用途将它们分为两类：第一类，用于更大的文本块或整个文档；第二类，用于从 PDF 文件中提取特定的文本项，如名称、产品、发票值等。我们将从第一类开始，因为这是最简单的。

♊ 从 PDF 提取文本块或整个文档

⭐ 背景

我们要读取下图PDF，上部分是文本，下部分是图像。

在这里插入图片描述

⭐方法一：读取 PDF 文本

要读取整个 PDF 文档或页面，可以使用读取 PDF 文本活动。这非常简单：选择要读取的文件，操作将输出一个包含文件内容的文本变量。我们将结果保存为文本文件，并在消息框中显示，但您可以使用其他字符串操作修改生成的文本或从中提取信息。如下图：

在这里插入图片描述

Range 参数很重要，因为它定义了实际要读取的内容。可以将它设置为所有的页

【前沿技术RPA】 一文学会用UiPath实现PDF自动化_uipath入门到精通pdf(2)

3️⃣ PDF自动化

♈ 前置知识

♉ 安装 UiPath PDF 活动包

♊ 从 PDF 提取文本块或整个文档

⭐ 背景

⭐方法一：读取 PDF 文本

【前沿技术RPA】一文学会用UiPath实现PDF自动化_uipath入门到精通pdf(2)