项目要对PDF文档进行全文检索,在抽取文本时遇到PDFBOX不能对中文(简体与繁体)给予很好的支持,改用XPDF插件来用,虽然不是跨平台的,但还是可以达到项目要求。
网上的参考:
http://liyazi.bokee.com/6602358.html
注意:有的PDF文件设置了读写权限,无法直接抽取,需要破解后才能抽取
项目要对PDF文档进行全文检索,在抽取文本时遇到PDFBOX不能对中文(简体与繁体)给予很好的支持,改用XPDF插件来用,虽然不是跨平台的,但还是可以达到项目要求。
网上的参考:
http://liyazi.bokee.com/6602358.html
注意:有的PDF文件设置了读写权限,无法直接抽取,需要破解后才能抽取