Pdf转doc的感受

一个含有大量中文的pdf文档因故需要转成doc文档。折腾了好久,最终得结果仍然不理想。

使用的好多的软件,有的是收费的(没有使用);有的只转换前面几页,想转换更多的页面,需要注册用户,同时缴纳部分费用;有的一插件的形式加到word中去来转换的。它们转换的结果大都很差,60页的文档有58页的乱码。分析原因,可能是利用latex生成pdf的时候的设置问题,我也不明白其中真正的原因。就是我直接利用拷贝的办法,出来的也是乱码,我分析是该pdf文档安全性设置的问题:
这里写图片描述

没办法,最终是要Adobe Acrobat pro来将其转换成word。Acrobat具有天然的优势,pdf本来就是人家推出来的格式。转换效果不错,没有出现乱码,有点小遗憾的是:

  1. 引文标注的序号变形了
  2. 数学公式变形了
  3. 一些希腊数学符号变成英文字符了
  4. 还有其他一些小的问题。

总结

中文出来确实是个问题。像之前我写的博客《pdf文档统计字数问题》,以及latex处理中文问题等,只要一遇到中文,一些软件要么处理起来非常麻烦,要么功能失效。所以说,一些我们认为简单的问题,不要轻视。一些网站动辄要收费,我怀疑他们在背后使用的是手工的方式转换的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值