【前沿技术RPA】 一文学会用UiPath实现PDF自动化_uipath入门到精通pdf(2)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 安装 UiPath PDF 活动包
  • 使用读取 PDF 文本活动、使用OCR 读取 PDF活动和屏幕抓取向导,从 PDF 中提取大文本段;
  • 从 PDF 文档中提取单段信息
  • 使用选取器从具有相同布局的多个文件提取可变值
  • 使用锚点基准活动从一系列具有相同结构的 PDF 文件中提取可变值
3️⃣ PDF自动化
♈ 前置知识

无论是原生PDF还是扫描PDF,UiPath 都允许您根据需要导航、识别和使用 PDF 数据。在我们继续之前,您应该已经熟悉提取数据,以及如何使用和编辑选取器。对于这两个主题,都有单独的博文进行详细介绍,所以一定要观看这些博文,避免您在学习过程中未能完全理解其中的某些内容。

♉ 安装 UiPath PDF 活动包

首先,确保安装了处理 PDF 文件所需的所有活动和依赖项。如果活动面板中的搜索PDF结果为空,则意味着您必须安装它们。只需转到包管理器搜索 PDF,然后安装 UiPath PDF 活动包。单击安装之后,务必单击保存,以便实际安装活动集,并更新项目依赖项。

在这里插入图片描述

在这里插入图片描述

我们可以看到,要使用的最低Studio版本是2018.4.4或2019.2。在以前的Studio版本上安装包可能会导致问题。

在这里插入图片描述

接下来,您可能已经意识到这样一个事实:PDF 文件可以包含文本、图像,有时还可以包含实际上是秘密图像的文本。一种基本的识别方法是直接选择您感兴趣的元素。如您所见,选择文本很方便,而图像会作为块立即显现出来。稍后我们将了解如何处理这两种情况
UiPath 有各种各样的活动和方法来满足您所有的 PDF 需求,并且我们根据它们的预期用途将它们分为两类:第一类,用于更大的文本块或整个文档第二类,用于从 PDF 文件中提取特定的文本项,如名称、产品、发票值等。我们将从第一类开始,因为这是最简单的。

♊ 从 PDF 提取文本块或整个文档
⭐ 背景

我们要读取下图PDF,上部分是文本,下部分是图像。

在这里插入图片描述

⭐方法一:读取 PDF 文本

要读取整个 PDF 文档或页面,可以使用读取 PDF 文本活动。这非常简单:选择要读取的文件,操作将输出一个包含文件内容的文本变量。我们将结果保存为文本文件,并在消息框中显示,但您可以使用其他字符串操作修改生成的文本或从中提取信息。如下图:

在这里插入图片描述

Range 参数很重要,因为它定义了实际要读取的内容。可以将它设置为所有的页

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值