linux pdf 转 txt文件,linux 下 pdf 转换成txt(示例代码)

pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转;如果是扫描的,就比较麻烦需要用到OCR技术(文字识别)。

在linux下:

依赖包  poppler-utils  tesseract tesseract-ocr-chi-sim

情况一:pdftotxt 命令 可以转换非扫描版,免费又方便,只是格式、字体都没了

情况二:pdftoppm + tesseracr 可以实现扫面版的转换

情况一操作 pdftotxt  name.pdf   new.txt

情况二操作 第一步:pdftoppm name.pdf new   会生成new-1.ppm new-2.ppm 每页一个;

第二步: tesseracr new-1.ppm  result    会生成result.txt;可通过写脚本逐个转换,最后合到一个txt里

我的脚本如下:

第一步:pdftoppm test.pdf b -r 450 -freetype yes   ;经过我测试 当DPI为450是识别效果较好,ppm文件也不是很大,单个在60M左右

第二步:脚本

for i in `ls b-*.ppm`  #注意路径

do

n=1

while [ $n -eq 1 ]   #监测任务

do

num=`ps aux|grep tesser|wc -l`  #并发任务不超过四个,可自行修改,注意内存和CPU

if  [ $num -le 4 ]

then

tesseract $i $i -l chi_sim &   #任务  -l chi_sim是指定内容是中文,会生成很多txt,最后不要忘了合并。

n=0

else

sleep 3

fi

done

done

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值