看了一天的PDF

最新推荐文章于 2024-09-06 23:41:09 发布

lukesunch

最新推荐文章于 2024-09-06 23:41:09 发布

阅读量1.5k

点赞数

文章标签： reference dictionary adobe stream string html

本文链接：https://blog.csdn.net/lukesunch/article/details/4624787

版权

今天比较深入的看了一下PDF的东西；大致了解了PDF对象->PdfObject，诸如name, dictionary, string, comment, null等等

读PDF是要从后往前遍历的；先找trailer-尾巴；然后根据startxref值确定xref-Cross reference起始位置；xref下面就是所有的obj的参照了，需要一个一个地解析

还是需要看adobe的PDF reference, 只有英文版，中文翻译的比较难找。迎着头皮看了一会PDF reference(1.4版的，因为手头的pdf似乎都是1.4的http://www.adobe.com/devnet/pdf/pdfs/PDFReference.pdf）。发现要解析PDF,转成html;即使只需要文本，也要对stream进行解码，这是最大的问题。头大！

在网上又乱看看，希望PDF之家上似乎有不少好东东.

http://www.pdfhome.com.cn/ArIndex.aspx

这篇似乎也不错

http://www.readfree.net/htm/200808/4633131.html

路漫漫其修远兮，吾将上下而求索..............

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lukesunch

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
看了一天的PDF

今天比较深入的看了一下PDF的东西；大致了解了PDF对象->PdfObject，诸如name, dictionary, string, comment, null等等读PDF是要从后往前遍历的；先找trailer-尾巴；然后根据startxref值确定xref-Cross reference起始位置；xref下面就是所有的obj的参照了，需要一个一个地解析还是需要看adobe
复制链接

扫一扫