xpdf提取中文PDF文档

实验环境:eclipse3.1
下载:xpdf-3.02pl2-win32.zip,xpdf-chinese-simplified.tar.gz
下载地址:http://www.foolabs.com/xpdf/
.解压pdf-3.02pl2-win32.zip到c盘,同时改名为xpdf
.解压xpdf-chinese-simplified.tar.gz到c:/xpdf下,同时改名为chinese
.在c:/xpdf下创建文件xpdfrc (在pdftotext.exe的同级目录下)
cidToUnicode    Adobe-GB1    c://xpdf//chinese//Adobe-GB1.cidToUnicode
unicodeMap    ISO-2022-CN    c://xpdf//chinese//ISO-2022-CN.unicodeMap
unicodeMap    EUC-CN        c://xpdf//chinese//EUC-CN.unicodeMap
unicodeMap    GBK        c://xpdf//chinese//GBK.unicodeMap
cMapDir        Adobe-GB1    c://xpdf//chinese//CMap
toUnicodeDir            c://xxpdf//chinese//CMap
fontDir                    C://WINDOWS//Fonts
displayCIDFontTT    Adobe-GB1    C://WINDOWS//Fonts//simhei.TTF
textEOL CR+LF
在设置路径的时候可以根据实际的环境进行设置
.在程序可以调用
Process p = Runtime.getRuntime().exec(cmd);
其中cmd是参照pdftotext.txt文件的说明进行设置
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值