归类
pdf软件的功能可以概括为:阅读,编辑(拆分,标注等),转化。
我们可以把市面上的软件分为三个梯队:
1、acrobat DC pro,作为pdf文件格式的开发者,acrobat提供的功能相当完善,pdf格式转化无可挑剔(不考虑某些数学公式,不过转化时占用cpu等资源较大)。界面美观,是单个pdf办公处理的首选。——国外软件,有破解版可免费使用
2、福昕编辑器,金山pdf。共同点:国内公司开发的软件,正规收费,无人破解。前者主要面向企业,费用高昂,功能繁多。后者更适合一般办公用户,pdf特权一年39元(app内开通)——都提供acrobat不具有的pdf批量转化功能
3、迅捷pdf编辑器和pdf转换器:这款软件代表了大多数你可以从网页上找到的各种名字的转换器。鲜明特点是有两个选项:格式优先,可编辑优先。格式优先中看不中用,不如转化之前的pdf文件用处大;可编辑转化可以正常使用,但是在用python批量处理时报错缺少child对象,可见转化过程信息损失之大。——有破解版(网页打不开的可以用vpn)。
以上三类分别对应了不同需求:
第一纵队适合高质量编辑,但是批量处理性能不足。解决方法:使用按键精灵类软件释放双手,但十几个上百页pdf转化还有些费时费力。(按键精灵存在失灵现象,而且每次单单击的延时要取最大值才不会发生意外。)
第二纵队:只要钱多,一切都不是问题。
第三纵队:只要有用,将就着也能过。
还有一个bug就是汉王扫描软件,外置一个usb小设备使用,价格700多,据说能够识别转化数学公式。转化准确度远超第一纵队,专业化程度和价格上堪比第二纵队,估计不能批量使用,适合教学错题整理使用。
番外之谈:做自己的数据搬运工
我们时常需要某些数据来完成自己的研究和报告,但是出于种种缘由,不是找不到,就是缺失值很多。就经济类数据而言,我们可以从公开信息渠道收集整理数据,通过模型计算出某些因素变量的估计值再进行进一步研究。
此时可能涉及pdf文件的批量转化和表格提取等工作。
网上提供的代码是很好的学习材料,但不具有很强的可移植性,运行过程中还有很多错误。这种方式需要根据自己的需要(所进行转化文件的内容和对象的特殊性)编写代码,根据运行结果不断调试修改。而且当需求发生变化的时候代码也应该随之修改。对于非编程专业人士(如笔者)来说,完美的解决方案只可能是上述已经被市场化的软件。
就pdf批量转化且不丢失对象这一需要而言,金山pdf可能是一个不错的选择。