一个含有大量中文的pdf文档因故需要转成doc文档。折腾了好久,最终得结果仍然不理想。
使用的好多的软件,有的是收费的(没有使用);有的只转换前面几页,想转换更多的页面,需要注册用户,同时缴纳部分费用;有的一插件的形式加到word中去来转换的。它们转换的结果大都很差,60页的文档有58页的乱码。分析原因,可能是利用latex生成pdf的时候的设置问题,我也不明白其中真正的原因。就是我直接利用拷贝的办法,出来的也是乱码,我分析是该pdf文档安全性设置的问题:
没办法,最终是要Adobe Acrobat pro来将其转换成word。Acrobat具有天然的优势,pdf本来就是人家推出来的格式。转换效果不错,没有出现乱码,有点小遗憾的是:
- 引文标注的序号变形了
- 数学公式变形了
- 一些希腊数学符号变成英文字符了
- 还有其他一些小的问题。
总结
中文出来确实是个问题。像之前我写的博客《pdf文档统计字数问题》,以及latex处理中文问题等,只要一遇到中文,一些软件要么处理起来非常麻烦,要么功能失效。所以说,一些我们认为简单的问题,不要轻视。一些网站动辄要收费,我怀疑他们在背后使用的是手工的方式转换的。