PDF格式水很深

前一段时间接了个PDF数据提取的活, 之前也做了许多文件格式解析的事情, 只要拿到格式规范基本都没有出现搞不定的情况。何况原来就有pdf的第三方组件, 所以满口答应2天搞定。


谁知道做进去才发现,PDF真的水很深。光有第三方库还是远远不够的,对着ISO32000标准来回看,才发现这个东西真的是一个大杂烩,什么技术都用上了。解码、格式解析、数据提取一样一样的,每一个让人省心。光说个字体,就够人烦的了。细节我就不多说了,总之,PDF水很深。


不过坐了半天也算小有所成,这里给后来人指点指点路数吧。


PDF格式的规范现在用的是ISO32000-1,对应的PDF版本是1.7,要解析PDF建议首先来看看这个,下载地址就不贴了,搜一下吧,反正官方是要钱的,不过我这里还是搞到了免费的,拿这个文档问题不大。不过如果英文不过关,估计就得打消念头了。


然后是用点第三方库,本身PDF结构解析的开源库还是有一些的,有些质量好点,功能多点,有些差点。我这里试了一下,针对.net, 比较满意的有两个: iTextSharp 和 PdfSharp。iTextSharp没有主动帮你构建结构树, 所以构建结构树得从PdfReader上一步一步来, 先找到root然后按图索骥, 不过其实直接枚举所有Object也是个办法, 当然前提是pdf不是很大的时候可以这样做. PdfSharp帮你把初步的根结够弄好了, 不过下面的自己结构还是要自己一点一点沿着引用去找. 两者相比较, iTextSharp功能更全面一些, 不过如果是用来做基本功能, 也差不多够了.


至于如何按图索骥, 看ISO32000吧。


然后另外一个很重要的东西是XMP,这个是Adobe做的一款用于描述metadata的XMP架构,它也不是个省油的灯。如果你是用XmlElement的读写方式去做,也就没必要看我这里了,那个是苦力活。我一般用的是xsd描述架构,然后生成对应的类,最后直接进行序列化、反序列化操作,流程比较简便,也更安全一些,毕竟有架构在那里保障着。


不过这套办法对于XMP是行不通的,除非能够把XMP所有的schema文档全弄来,这个可不是个轻松的事情。所以得绕点路。幸亏Adobe发布了个XmpToolKit,这个给C++和Java用的,另外SourceForge上有CS转换版本的CsXmlToolKit,总算帮忙解决了问题. 另外XMP的规范文档也在下载包里面,还是帮助不小的. 具体用法就参照里面的specification和document吧。不多说了。


最后给个小工具的链接,就是我用iTextSharp做的PDF文件结构查看器,分析数据内容挺有用:

http://download.csdn.net/detail/esmool/4919927

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
度强化学习实战PDF》是一本关于度强化学习的实践指南。本书通过结合理论和实践,引导读者了解度强化学习的基本概念和原理,并通过具体案例和实例帮助读者在实际问题中应用度强化学习算法。 本书首先介绍了度学习和强化学习的基本概念,包括神经网络、马尔科夫决策过程等。接着详细介绍了度强化学习算法的核心内容,如Q-learning、度Q网络等。同时,该书还提供了相应的代码实现和详细的实验步骤,读者可以通过跟随实例逐步实施算法,加度强化学习的理解。 《度强化学习实战PDF》还强调了实践的重要性。书中给出了多个实际问题的解决方案,如游戏玩家的训练、机器人的控制等。通过这些案例,读者可以学习如何将度强化学习算法应用于实际场景,并理解算法在不同问题中的适用性和优势。 此外,本书还提供了一些实战技巧和注意事项,帮助读者在实际应用中避免常见的问题和错误。通过这些提示,读者能够更加高效地进行实验和项目开发,并且能够在学习和应用中获取良好的实践效果。 综上所述,《度强化学习实战PDF》是一本实践性很强的度强化学习指南。通过学习本书,读者可以系统地了解度强化学习算法的原理和应用,掌握相关的实现技巧,并能够在实际问题中灵活应用这些算法。无论是对于度强化学习初学者还是已经有一定经验的研究者来说,本书都是一本很有价值的学习资料。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值