一开始用网上说的 pdf 转 word , word 转 pdf ,转过来发现还是 扫描版的🤣。
然后找到这个项目:https://github.com/ocrmypdf/OCRmyPDF
直接三步( linux 下,windows 下使用 Windows Subsystem for Linux ):
1.安装 OCRmyPDF : apt-get install ocrmypdf
2.安装中文支持:apt-get install tesseract-ocr-chi-sim
3.ocrmypdf -l eng+chi_sim --force-ocr input.pdf output.pdf
(转化的时候出现 WARNING 正常,还有就是 OCR 识别之后卡住也是正常的,等等就行了)
另外有钱的话,整个 Adobe Acrobat Pro DC ,可以直接转化 。(不过巨贵,另外破解版一时半会也没找到,所以还是用开源的香)