linux 下 pdf 转换成txt

最新推荐文章于 2024-06-04 08:47:55 发布

weixin_33881753

最新推荐文章于 2024-06-04 08:47:55 发布

阅读量646

点赞数

文章标签：操作系统运维

原文链接：http://blog.51cto.com/lejie/1845176

版权

pdf有转换，如果是非扫描的，转换很快，识别率100%，很多软件可以转；如果是扫描的，就比较麻烦需要用到OCR技术（文字识别）。

在linux下：

依赖包 poppler-utils tesseract tesseract-ocr-chi-sim (包名可以通过yum search chi_sim 确定)

情况一：pdftotxt 命令可以转换非扫描版，免费又方便，只是格式、字体都没了

情况二：pdftoppm + tesseracr 可以实现扫面版的转换

情况一操作 pdftotxt name.pdf new.txt

情况二操作第一步：pdftoppm name.pdf new 会生成new-1.ppm new-2.ppm 每页一个；

第二步： tesseracr new-1.ppm result 会生成result.txt；可通过写脚本逐个转换，最后合到一个txt里

我的脚本如下：

第一步：pdftoppm test.pdf b -r 450 -freetype yes ；经过我测试当DPI为450是识别效果较好，ppm文件也不是很大，单个在60M左右

第二步：脚本

for i in `ls b-*.ppm` #注意路径
do
n=1
   while [ $n -eq 1 ]   #监测任务
   do
   num=`ps aux|grep tesser|wc -l` #并发任务不超过四个，可自行修改，注意内存和CPU
       if [ $num -le 4 ]
       then
           tesseract $i $i -l chi_sim &   #任务 -l chi_sim是指定内容是中文，会生成很多txt，最后不要忘了合并。
           n=0
       else
           sleep 3
       fi
   done
done

转载于:https://blog.51cto.com/lejie/1845176

weixin_33881753

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux 下 pdf 转换成txt

pdf有转换，如果是非扫描的，转换很快，识别率100%，很多软件可以转；如果是扫描的，就比较麻烦需要用到OCR技术（文字识别）。在linux下：依赖包poppler-utils tesseract tesseract-ocr-chi-sim (包名可以通过yum search chi_sim 确定)情况一：pdftotxt 命令可以转换非扫描版，免费又方便，只是格式...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。