java读取pdf中数据,包含表格和图片

任务是提取pdf文件中的数据,并将其转化到csv格式的文件中。

首先用到的工具为开源jar包:pdfbox,由于pdf中没有表结构,且要提取的pdf文件格式固定,pdfbox提供extractbyarea方法,所以通过坐标可以提取表格中每一列的数据,好像方法挺笨的,但是没找到其他跟好的方法。

关于java操作pdf,在网上看到好多人说itext比pdfbox方便,功能强大,但是itext好像只是在生成pdf文件时比较方便,图表插入很方便,但是不太适合读取pdf中的信息。

然后是将提取的信息保存到csv文件中,居然还有个开源的javacsv.jar,用起来还是比较方便的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值