android pdf 目录分析,Android中PDF目录,搜索(包含中文),文字选择,高亮等实现...

最近折腾了一个Android平台上PDF解析的一个项目,涉及到PDF中一些常见的问题,例如PDF的目录,搜索(包含中文),文字选择,高亮等实现,先借此地分享一下自己的一些成果。代码后期会开源出来,供大家分析,有好的建议也欢迎提出。。

参考文档

参考项目

APV是基于Mupdf做了一个英文搜索以及显示方面的优化。

本文也主要基于Mupdf对各种模块进行相关的分析。

PDF的GUI分析工具

Voyeur https://github.com/below/PDF-Voyeur  它能帮你从繁杂的pdf spec中解脱出来,比较直观地了解PDF的内部结构,貌似只有Mac版的。。

Mupdf中的一些基础类

fz_obj  使用一个内联结构体代表了PDF中的基本数据类型

PDF支持8种基本对象类型为:布尔值,整型和浮点数(real numbers),字符串,名字,数组,词典,流,空对象

PDF目录

mupdf.h中目录的定义

structpdf_outline_s

{

char*title;

pdf_link *link;

intcount;

pdf_outline *child;

pdf_outline *next;

};

Voyeur中目录的层级结构

Outlines节点为目录的跟节点,它包含的信息为目录的其实页的字典编号以及尾页的字典编号。 /Count为与First节点平行的节点数目(不过看C++ Primer这边书怎么数都不是39)。

<<

/First dictionary

/Count 39

/Last dictionary

>>

其中

/Title对应pdf_outline_s中的 *title

/First /Last 对应 *child

/Next 对应 *next

/Dest 对应 *link ,想知道当前的目录对应于PDF中的哪一页,需要用到此结构 (不同PDF版本此结构有差异,有兴趣的可以自己找找,mupdf适配了不同的差异)

0818b9ca8b590ca3270a3433284dd417.png

获取pdf_outline的方法

pdf_outline *outline = pdf_load_outline(xref);

//获取pdf当前目录对应的页码,需要遍历outline,将outline->link->dest中的refrence与交叉应用表中的page refrence做一个比较。

intcurrentPageNum = 0;

while(outline) {

for(currentPageNum; currentPageNum 

if(fz_is_array(outline->link->dest)) {

if(fz_objcmp(pdf_resolve_indirect(fz_array_get(outline->link->dest, 0)),

xref->page_objs[currentPageNum]) == 0) {

//currentPageNum为当前outline对应的pdf页码(从0开始)

LOGE("Got the outline page %d", currentPageNum);

break;

}

}

}

outline = outline->next;

}

搜索(包含中文)

文字选择

文字高亮

(待续。。)

先上一个XOOM平板上的选择效果。可以拖动前后的大头针重新选择区域。

0818b9ca8b590ca3270a3433284dd417.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值