使用java提取pdf内容

    之前使用pdfbox提取pdf中的内容,一直比较正常,对中文也基本能够支持。在最近的测试中发现有少量文件无法提取内容,还有一个文件提取时报错。

   首先是无法提取文件内容的问题(出现这一问题的文件均为网上填写的报名表),一开始没有使用PDFParser,直接用了stripper,提取时不报错,调试时发现程序进行到stripper就停止了。参考他人的程序后,先创建PDFParser再调用getPDDocument(),程序报错。错误原因是出现不可识别的字符集“UniGB-UCS2-H”,查阅了一下,遇到这个问题的童鞋不少,都没能够很好的解决。

    提取时报错的文件是从网上下载的论文,报错内容为“NoClassDefFoundError:org/bouncycastle/jce/providor/BouncyCastleProvidor”.于是乎下载并安装了BouncyCastleProvidor。具体方法戳这里http://baike.baidu.com/view/1627540.htm。满心欢喜地再一次试着提取,错误又变为找不到”bouncycastle.cms.CMSException”,奇怪的是我也找不到这个在哪里,以为是providor的版本问题,换了版本之后,报错又变为缺少“ans1.DEREncodeable”。

     在网上进行一通寻找之后无果,于是无奈地尝试了xpdf这个工具。之前报错的文件都能正常解析了,之前正常的文件依然正常~

     而且,貌似xpdf字体扩展很方便。先用着呗。

    xpdf用法请戳:http://hi.baidu.com/stone_kings/item/da5acb36dc539a372f20c463。

   

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用 Apache PDFBox 库来提取 PDF 文件中的内容。下面是一个简单的例子,演示如何使用 PDFBox 提取 PDF 文件中的文本内容: ```java import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class PdfBoxTest { public static void main(String[] args) throws IOException { // 加载 PDF 文件 PDDocument document = PDDocument.load(new File("test.pdf")); // 创建一个 PDFTextStripper 对象 PDFTextStripper stripper = new PDFTextStripper(); // 获取 PDF 文件的文本内容 String text = stripper.getText(document); // 输出文本内容 System.out.println(text); // 关闭 PDF 文件 document.close(); } } ``` 运行该程序,可以得到 PDF 文件中的文本内容。 当然,如果需要提取 PDF 文件中的其它内容,比如图片、表格等,也可以使用 PDFBox 提供的相应工具类来实现。例如,使用 PDFBox 提取 PDF 文件中的图片,可以使用如下代码: ```java import java.io.File; import java.io.IOException; import java.util.List; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.rendering.PDFRenderer; public class PdfBoxTest { public static void main(String[] args) throws IOException { // 加载 PDF 文件 PDDocument document = PDDocument.load(new File("test.pdf")); // 创建 PDFRenderer 对象 PDFRenderer renderer = new PDFRenderer(document); // 获取 PDF 文件中的所有页面 List<PDPage> pages = document.getPages(); // 遍历所有页面,提取图片 for (int i = 0; i < pages.size(); i++) { PDPage page = pages.get(i); int pageNum = i + 1; String fileName = "page" + pageNum + ".png"; renderer.renderImageWithDPI(pageNum - 1, 300, fileName); } // 关闭 PDF 文件 document.close(); } } ``` 运行该程序,可以将 PDF 文件中的所有页面转换成 PNG 图片保存到本地。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值