(10)XPDF读取文本

XPDF是一个软件,我们可以通过XPDF抽取PDF中的文本。然而要利用XPDF提取中文文本,需要对其进行一些修改和配置。
1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip
2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz
3、解压XPDF和字体,将字体放到xpdf/chinese-simplified/CMap目录下
4、为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。
注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入”-cfg xpdfrc2”来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc。
5、修改add-to-xpdfrc文件中的地址 ,将路径该为本机安装路径

#----- begin Chinese Simplified support package (2004-jul-27)  
cidToUnicode Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode  
unicodeMap ISO-2022-CN E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap  
unicodeMap EUC-CN  E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/EUC-CN.unicodeMap  
unicodeMap GBK  E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/GBK.unicodeMap  
cMapDir  Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap  
toUnicodeDir   E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap  
displayCIDFontTT    Adobe-GB1   E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值