使用iText,精确提取PDF页面内容(估计完胜pdfbox吧)

首先说明,偶是没有用过pdbox,在百度里搜索了下,大多关于从pdf中提取文本的都所iText创建pdf很强大,提取文本比较弱智。 最近因需要从PDF中提取text文本(均为e文,所以没有考虑中文编码问题),而且是一张提货单,格式相对不是大段的问题,含有表格,先是使用python的 pdfminer,先转换成HTM输出,然后使用正则解决的,感觉实在太复杂,而且速度也没有保证,而且iText比起pdfbox来要小不少,后来决定还是使用iTextSharp来进行该工作,还好的是这个作者写了本关于iText的书
发布了31 篇原创文章 · 获赞 4 · 访问量 2万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览