PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。
下载的是: xpdf-3.02pl4-win32.zip包
另外还需要一个语言包: xpdf-chinese-simplified.tar.gz,支持中文
工作路径的设置:
把 xpdf-3.02pl4-win32.zip包解压到 E:\PDFBox\xpdf(路径可以自己设定)
把 xpdf-chinese-simplified.tar.gz解压到 E:\PDFBox\xpdf\xpdf-chinese-simplified(必须要放在上面解压的目录里面)