文档内容结构化技术探索

本文探讨了如何通过将十几种办公文档转码为PDF,利用开源PDF数据格式解析,实现跨平台的统一排版。重点介绍了PC端的xreader版式数据处理和BDJson流式数据,涉及Word公式转LaTeX,以及OOXML的章节结构应用。
摘要由CSDN通过智能技术生成

word,ppt,excel和pdf等十几种常见办公文档,核心基础服务是文档转码和展现。

为了统一十几种文档的转码和展现方案,不依赖于原文件格式的开档软件,技术调研后,最终方案为任意文档转码为pdf格式,解析开源的pdf数据格式,加工后形成文库自有文档格式,在pc端、无线端排版和渲染

PC端渲染采用源于PDF的xreader版式数据,版式数据指的是每个元素(文字、图片)都有一个坐标信息和元素的宽高信息,以及其他的描述信息。

图片

 

Retype流式数据(基于xreader版式数据)

文档内容“版式转流式”的方案,遍历xreader版式数据中的每个元素,提取坐标信息x,y和元素的宽高w,h信息。比较接近的y认为是同一行数据,y接近的情况下,根据x和w拼接相邻的文本元素、连接相邻的文本和图片

BDJson流式数据(基于ooxml数据)

OOXML是开源项目,基于zip+xml的格式,普通文本及其字符属性、段落属性的读取和解析较为方便,其自带章节、段落和表格等结构化信息,便于流式排版。基于本次排版需求,以及考虑到将来有word在线编辑的场景,方案设计为语义级别的精确解析文档,抽取内容和属性,组建office数据结构

章节、段落等数据结构,遵循ooxml标准

word中支持的多套公式数据“域公式、mathtype公式,omath公式”统一转码成LaTex数据格式,不仅便于后续编辑,而且可以适配正文的字体和大小,整体排版效果更统一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值