mysql表中pdf文件读取_Matlab如何读取PDF文件

本文介绍如何仅使用Matlab读取PDF文件中的文本数据,避免使用循环提高运行效率。通过Word打开PDF,然后读取Word文件内容,利用`invoke`和`get`函数实现。分享了一种避免循环的方法,显著提升了代码运行速度。
摘要由CSDN通过智能技术生成

早期关注过我的朋友,不知道你们还记不记得,曾经我写过一篇关于Matlab读取PDF文件的帖子“别让低质量的忙碌制造一个努力的幻想”。现在回过头来看这篇帖子觉得,思路还好,不过其中借助了vbs语言。

今天我主要是想来聊聊,如果仅仅只靠Matlab,是否能够实现PDF文件的读取,先来看一下整体效果。

下面这幅图所展示的是一个PDF文件,整体的需求是,将PDF文件中的数据,录入到Excel表格中。如之前所说,这个PDF的格式有些奇怪,一共有44页,每次全选,每次全选都只能选中当前页面的数据,整个文件大概有1600行数据,手工录入的话,需要复制粘贴将近4000次。

如果仅仅只是复制粘贴到Excel表格的话,在这里,我介绍一个最快速的办法,打开Word,通过Word打开PDF文件,然后直接复制整个表格到Excel中,最后对格式稍作修改,整个需求就满足了。

不过,如果需要对文本内容进行加工,那么可以通过脚本的形式,读取PDF中的文本,进行正则处理,动图效果如下

最终获取到的字符串如下所示,至于字符串正则处理,在这里就不再过多说明,如果有兴趣,以后可以专门开一贴来讲解。

接下来从代码逻辑层面上聊一聊,Matlab读取PDF文本数据是如何实现的。

整体思路上,是非常简单的,正如我刚才介绍过的,最主要是通过Word的形式打开PDF文件,然后读取Word文件中的文本数据。所以

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值