c/c++读取txt文件中指定行的内容_云扩RPA流程开发课堂 | 如何批量获取PDF文档中的指定信息并存入数据表?...

85bd2183f794035ecd383960ec821a28.png

大家好,这节课我们接 循环下载钉钉出差审批单(PDF文件)场景,继续讲解该场景接下来的操作 - 循环从PDF文件中获取指定信息:日期及出差理由,并把对应信息存入数据表中。

我们在RPA获取PDF文档的数据中讲过表格类型的PDF文档可以转换为Excel操作,如果不是纯表格的PDF文档可以转换为Word文档操作,那么这节课我们再讲讲将PDF文档转换为txt文件并从中获取指定信息的方案。接下来,一起看看如何操作。

准备工作:

  • 准备开发流程的电脑,请打开云扩学院链接查看云扩RPA编辑器运行的硬件&软件要求。

  • 打开云扩官网下载编辑器并安装(本节课使用编辑器版本为:1.1.2009.10)。

  • 已下载钉钉出差审批单-PDF文档。

流程操作步骤:

  • 搭建数据表

1. 创建项目并打开项目。

2. 拖入“搭建数据表”组件,定义列名“日期”与“出差事由”并创建数据表变量:

26a3c17051c394859376351de171deb2.png

  • PDF文档转TXT文档

1. PDF格式转换工具组件在组件市场中,所以我们需要先把需要的对应组件从组件市场从下载下来:

177d96d247fee7549770244c0dea4ac6.png

2.  因为我们需要循环处理PDF文件,所以先拖入“遍历文件夹”组件,并定义含有PDF文件的文件夹路径:

572de1b84f9b60a7843a272869b486d1.png

3. 拖入“PDF转Text”组件,定义PDF文件路径与转换后的txt文件路径:

a) PDF文件路径:filePath

b) 转换后Text文件路径:filePath.Split('.')[0] + ".txt" 

892c002054f3af58104682738ef0c3d5.png

  • 读取文件内容

1. 拖入“读取文件”组件并输入文件路径与定义输出变量,用以读取上步操作中转换后的txt文件数据,如下图所示:

da35eebbe9f8a12f6b2d1c1071defee4.png

  • 获取指定信息

1. 拖入“截取文本”组件获取所需数据。首先我们打开PDF文件查看数据的位置 

72f21ac9dc6802e626970f6118ddf88d.png

从上图可见,需要获取的数据为:

a)出差事由(内容在关键字“出差事由”与“出差天数”之间);

b)时间(内容在关键字“时间”与“考勤”之间)

首先获取出差事由:输入“开始位置”(用text.IndexOf("出差事由"))与“结束位置”(text.IndexOf("出差天数")),定义截取结果变量,并拖入“确认框”组件验证获取的内容:

7d275e3c9742f428c5279e479572af48.png

运行流程查看获取数据:

3d40949b23a84c36fdc7812d898197f5.png

从上面的图可见,获取的数据除了可用数据外还多出前面的“出差事由”与后面的“出”,那么,我们需要做索引偏移,设置开始位置与结束位置如下图所示:

cd7b95f570fea78e4d388b6aa727ba2b.png

2. 同样方法获取出差时间,如下图所示:

70a965f6284581c3767781aa728f9178.png

  • 将获取的数据添加到数据表中

1.  拖入“添加数据行”组件,并把上步操作获取的时间与出差事由内容写入数据表行数组中:new Object[]{dateText.Trim(),businessReason.Trim()}:

8c7b607a21903acdb79b17ef97f34169.png

  • 预览数据表及天数txt文件

至此,流程已开发完成,为了展示获取数据是否正确添加到数据表中,我们拖入“预览数据表”组件进行预览数据。再拖入“删除文件/文件夹”组件删除生成的txt文件:

14cc78612d5e76a700f73db2d6c232e7.png

如果需要把数据存入Excel文件,则用“打开/新建”组件与“写入区域”组件将数据写入Excel文件中,保存流程并运行,下面视频供参考:

好了各位,今天的课程就到此结束。我们可以用这种方法获取很多种PDF文档中的数据,比如pdf格式的发票,用OCR需要另外收费,那么我们何不用这种方式免费获取呢?免费还好用的东西谁不值得拥有呢?祝各位流程开发顺利~

快来点击阅读原文,申请下载云扩RPA社区版吧!

往期精彩课程推荐

2653047a3f7ab0bc375b8717d3f2055d.png

e4fab2b39d217ba1ae57b730d905a282.png edce542aaefb41f659ed24b3aa091a6a.png -END- 上海云扩信息科技有限公司是全球RPA领域的创新领军者。公司以自研的云扩RPA平台为核心,致力于为各行业客户提供智能的RPA机器人产品与解决方案,通过RPA赋能,持续为客户创造价值,助力企业推进数字化转型。 f65d4355200eb3aa04bb4c1e87c165dc.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值