OFD文件解析流程

本文介绍了OFD文件的特性,以及如何解析OFD格式的电子文件,特别是通过XML结构提取文本和线条数据,包括主入口文件、文档结构和数据提取思路。OFD作为国产版式文档,具有自主产权、便携性、开放性和扩展性,广泛应用在档案管理等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OFD解析数据流程分享

最近接到公司任务,应客户要求要做ofd格式文件的电票识别。刚接到任务的时候我对于ofd格式文件知道的少之甚少。之前只是听到同事提起过这样的一种格式。在我当时的认知里就单纯的知道他是"中国版的PDF"。对于他的底层实现和用途一无所知。所以我接到任务的时候就着手规划解决流程。

  1. 先了解ofd底层实现,解析构造文件
  2. 熟悉构造文件的实现原理,根据文件特性提取数据
  3. 结构化数据,并根据数据特点重构造。

1. ofd文件特性

简短的说一下ofd文件吧,想详细了解的建议去看一下电子文件存储与交换 板式文档。需要的可以私信我。
OFD格式是我国自主可控的电子文件版式文档格式。我有时候会跟别人解释国产PDF。

在OFD格式产生之前,电子文件存档格式并没有统一的国家或行业标准,档案工作中普遍采用DOC、WPS、PPTX等流式文件格式。内容易更改、转移过程存在安全隐患,并不符合电子文件长期保存要求。

一些格式依赖非自主可控技术,使用和服务都受限于外部厂商和技术,存在安全隐患。格式标准不公开,私有版式文档的格式解析、标准解释掌握在国外企业手中,文档信息资源的保密性存在隐患。

OFD格式优势

1 产权属于自主产权

2 具有便携性:文件小,可压缩比率大。测试显示生成的文件体量比PDF还要小。

3 具有开放性:易于入门,对于使用者来说更具开放性。

4 具有扩展性

评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值