问题描述
在处理文本数据时,经常会遇到需要将PDF转换为txt的情况,在线转换工具在速度和数量上有限制,现成的免费可批量转换的易用软件比较少,怎么破,博主是在Ubuntu系统上处理数据,所以便想到了使用现成的linux工具,在命令行高效完成。
解决办法
Ubuntu下安装xpdf工具,命令如下:
sudo apt-get update && sudo apt-get install -y xpdf
其他unix系统的安装方法类似
使用命令行将PDF转换为txt,命令如下:
pdftotext -layout input.pdf output.txt
上述命令是转换单个PDF文件,但是我们要批量转换,怎么办呢,直接用写一个遍历PDF文件夹的shell脚本,循环执行上述命令即可,在PDF文件夹中执行如下shell命令,即可实现批量转换,速度很快哦:
for file in *.pdf; do pdftotext -layout "$file" "$file.txt"; done
参考资料
[1] https://docs.bitnami.com/bch/apps/resourcespace/configuration/install-pdftotext/
[2] https://askubuntu.com/questions/52040/is-there-a-better-pdf-to-text-converter-than-pdftotext/307789#307789