文档智能:技术框架及在监管科技的应用

国际数据公司 IDC 预测,从 2018 年到 2025 年,全球产生的数据量将从 33ZB 到增长到 175ZB,年复合增长率达 27%。其中,80% 都是计算机较难处理的非结构化数据。

图片

非结构化数据以图片、扫描件等文件形式存储,其中的信息难以流通和处理,无法充分发挥价值。

随着数字化进程的加快,文档智能(Document AI)日益成为学界、业界共同关注的领域。文档智能是自然语言处理和计算机视觉交叉领域的细分研究方向,指通过人工智能技术,让计算机自动阅读、理解和分析数字文档、扫描文档、图片、网页等信息载体,并对其中的信息进行提取、归纳和分类。具体来说,文档智能处理包括全景文档结构识别、细粒度语义抽取、知识结构化等处理任务,致力于将非结构化数据转化为结构化数据,支撑后序处理流程。

在这篇文章里,我们会重点介绍业界和学界对于文档智能的关注点、文档智能处理技术框架,以及目前文档智能技术在监管场景中的应用实例。

1


文档智能的发展趋势

在实际生活和工作场景中,文件扫描图像的质量参差不齐,版面格式纷繁多样,使文档智能技术的应用面临诸多挑战。

传统的文档分析处理方法包括早期基于规则的方法,以及之后基于统计机器学习的方法。总体来说,这两个阶段的方法,使用的数据量小、规则较为局限,对文档结构的变化不鲁棒。近年来,基于深度学习和预训练的方法逐渐成为主流。深度学习技术,特别是卷积神经网络(CNN)、Transformer 架构,以及预训练技术的发展,让文档智能的任务处理性能得到了显著提升。我们着重介绍文档解析领域的发展。

首先是数据方面,近年来各类数据的数量、类型得到了极大发展。由 ImageN-et 引发的深度学习浪潮使人们认识到数据对于人工智能、机器学习算法的重要性,因此近年来在文档版面分析、信息抽取、表格理解等任务上出现了大量的公开数据集和评测比赛,企业内部也开始注意数据的积累。

其次是模型方面 ,CNN、GNN 和 Transformer 等网络结构的参数量更大,有更强的数据拟合能力和表达能力,可以从大量数据中学习拟合标注结果,并对文档的形式变化具有一定的泛化性和鲁棒性。在文档页面物理结构识别任务中,一些工作借鉴了图像处理的高效分割方法,如 Fast-RCNN。在文档目录结构识别中,树形结构的长短时记忆神经网络(LSTM)代替了简单的线性方法。借鉴自然语言处理中的大规模预训练方法,文档处理领域也提出了相应的文档预训练方法 Layout-LM、表格预训练方法 TableLM 等。数据、模型方面的持续研究使得文档智能领域取得了长足的进展,现在已经在一些任务上达到了较好的效果。例如,在国际权威文档处理比赛 ICDAR 2021 中,科研文献的文档结构识别任务的最高成绩达到了 0.97 的正确率,表格结构识别任务的最高成绩达到了 0.96 的 TEDS 分。此外,在内容理解领域,自然语言处理、表格处理技术在深度学习时代也有了飞跃式的发展,在分词、实体识别、关系抽取、情感分类等任务上,在一些数据集上已经达到了人类水平。

在业界,尤其是信息处理任务较为频繁的行业,已经开始对文档智能技术进行应用尝试,来提高信息质量和工作效率。例如,在医疗领域,利用文档智能技术对病历、医疗影像、有关文献进行提取分析,辅助疾病诊断与预测。在财税费控领域,实现了发票、报销单、采购单的纸质单据信息提取,节省了大量的人工劳动。在法务领域,文档智能可用于检查合同、函证的一致性,防止合同篡改、函证造假,消除潜在风险。在地产和建筑等行业,相关技术可应用于招投标,实现自动化资料收集,并可以对标书进行互检,快速检测雷同部分,发现围标等情况。

而在金融行业,存在大量各类文档用于信息披露与传递,文档数量更大、信息更为复杂。目前,对信息披露文档进行数据提取、更新与审核的相关应用已经较为成熟。接下来,我们将以金融监管场景为例,介绍文档智能处理的技术框架,该技术框架具有较高的通用性,经过不同行业文档样本的训练,也可用于其他行业的文档处理任务。

2


文档智能的技术框架

文档智能处理的具体过程可拆分为 4 个步骤:文档全景结构识别、初步定位、细粒度语义抽取,以及知识结构化。

2.1  


文档全景结构识别

金融监管场景中需要审核和监督的文档,包括年报、债券募集说明书、招股书等,多为 PDF 和扫描件。这些文档格式中,仅存储了字符、线条的位置信息,或仅存储为了图片,没有文本段落、表格等计算机可以直接进行语义理解的单元。因此,第一个步骤需要对文档结构进行全景识别,重新构建目录、表格、文本段落等信息。

文档全景结构识别,是指深度学习模型在 OCR 的支持下,识别文档物理与逻辑结构,将文档完全结构化为若干独立的标题、段落、表格、图表等内容块,最后明确逻辑结构的阅读顺序和文档的目录结构,输出为结构化的 JSON 数据。这一步骤可细分为光学字符识别(OCR)、物理结构识别、跨页跨栏对象修整、阅读顺序识别、逻辑结构识别、表格内部结构识别等几个模块(如图 1 所示)。

图片

首先,光学字符识别,输出文档中的文本块及其中每个字符的位置、内容。

其次,物理结构识别,输出文档中的物理组件(如表格、段落、图片)的外框位置信息以及组件类型。针对于跨栏、跨页的内容块,计算机需要判断哪些物理结构进行合并,来保证对象结构和内容的完整性。

第三,阅读顺序识别,根据相应文档的阅读习惯,例如从上至下、从左至右,或者更复杂的规则,输出物理组件的排列顺序。

第四,逻辑结构识别,在确定阅读顺序后,计算机将排列顺序转化为层级结构,输出并列、包含等逻辑结构关系。

第五,表格内部结构识别,针对表格内部结构进行专门的识别,从而提取表格内部的信息和数据。

2.2   


初步定位

通过文档结构识别,我们将非结构化的文档转化为后序步骤中可处理利用的数据。然而,在实际应用场景中,后续步骤并不需要里面的所有字段和数据,而是重点关心其中的重点内容。

如果在全文档中进行语义理解,会造成低效以及算力资源的浪费。因此,在第二个步骤,我们需要针对于后续流程所需要的特定信息需求进行初步定位,利用关键词匹配、文本分类等算法,计算出查询的关键词和各个物理组件(例如表格、段落)的相关度,从而筛选出来包含这些信息的段落或表格。

2.3 


细粒度语义信息抽取

比尔·盖茨曾说,“语言理解是人工智能皇冠上的明珠”。初步定位结果后,就需要从中抽取结构化的信息。以金融文档为例,需要抽取的信息包括财务指标、主营业务、债务关系、时间、董事会资料等信息。大量数据信息隐匿在自然语言的段落中,往往包含长程修饰、承前省略、零指代等语言现象。通过自然语言和表格理解等模型,计算机可以细粒度抽取段落中的信息,完成文本分类、实体识别、关系和事件抽取等任务(如图 2 所示)。

图片

  • 实体识别 :结果的每个条目应当指出实体边界以及实体类型,其中实体边界使用字符在文本中的位置来表示。

  • 关系抽取 :结果应当包含头实体、尾实体和它们的关系三个部分。

  • 事件抽取 :需要给出事件的结构化信息,包括主语、触发词、事件类型等。

对于自然语言理解,此前有研究利用双向 LSTM 模型和 DAG 结构的 LSTM 模型从金融文档中抽取财务指标和复杂计算公式。对于表格理解,有学者提出了利用双通道卷积神经网络模型提取表格公式的方法,在实际应用中也取得了不错的效果。

2.4


知识结构化

文档智能处理的最后一步,是将以上抽取得到的信息进行归纳,形成层级化、结构化的体系,便于进行后续的自动化分析。信息归纳需要对提取出来的数据进行清洗和标准化处理,建立信息之间的网络关系。有利于达成信息结构的共识。例如,结合上下文理解,计算机可将年报中不同位置出现的不同具体称谓的财务指标进行标准化,映射到同一个财务概念上。

信息的结构化通过知识图谱、知识库等形式规范地存储信息,形成良好的结构化表示以支持人机、机机交互协同。例如对财务指标等信息进行标准化、结构化,建立各类财务指标的网络关系。

结构化的结果主要包含两部分 :概念体系和知识库。由于两者涉及较多的三元组关系,往往形成网状结构,具体的数据存储格式推荐参考面向网络的非关系型数据库。

3 


文档智能在监管科技中的应用

监管科技指“将新技术应用到现有监管过程中,以促进达成更有效的风险识别、风险衡量、监管要求以及数据分析等活动”,最早由英国市场行为监管局(FCA)提出。2021 年,证监会提出“运用市场化法治化手段,紧紧把住信息披露这个核心”,通过坚决和有效手段压实发行人及中介机构责任,避免“带病闯关”,提高首发企业信息披露质量。

金融监管涉及的相关文档,具有体量庞大、格式多样、准确率要求高三大特点。首先是体量庞大,不仅体现在金融文档的种类繁多,例如债权和股权的承销发行,整个业务流程需要公开披露十余种文档 ;还体现在单一文档的篇幅庞大,例如债券募集说明书,动辄数百页,涉及千余个数据点。其次是文档格式繁杂,金融行业需要处理大量非结构化文档,除了易于提取数据的 DOCX 格式,还有大量计算机难以直接利用的 PDF 电子版、扫描件、图片等文档格式。最后是对于文档处理的准确率要求极高,容错率低。如果在信息披露中闹出乌龙事件,对于保荐机构、市场和投资者来说都会遭受不小的损失。

在此背景下,文档智能技术日益成为监管工具箱重要的底层技术之一。其中,智能审核的应用最为广泛。以下将详细介绍三个智能审核的应用实例,包括上市公司年报的审核、债券募集说明书的复核,以及银行流水的核查预警。

3.1 


监管部门:智能审阅上市公司年报

香港交易及结算所有限公司(下称港交所)是全球主要的交易所集团之一。截至 2022 年 11 月,港交所的上市公司超过 2500 家。作为前线监管机构,港交所每年都要对上市公司的年报进行审核,检查是否符合信息披露规则,工作量庞大。在此背景下,港交所联合内地某科技企业开发了 Jura 系统,运用文档智能技术,评估“上市公司年报的合规性”。

在合规性判断中,Jura 系统采用了逻辑判断函数 g (S),将各种上市披露规则审核的一般情况归类为存在性检查和基于数值的检查。Jura 系统在关键词查询的存在性检查外,还利用关系提取、事件检测和特征描述来定位因果关系、多变量事件和复杂的语言措辞,找到特定的细粒度信息,使用 AI 模型中内嵌的公式计算来检验数值的一致性。

港交所上市监管部的负责人 Christine Kan 指出,在利用人工智能审阅所有公司年报时,约 92%都具备合规性,只需要人工集中处理大约 8%被怀疑不合规的案例。港交所指出,与单纯的人工审查相比,Jura 为港交所的年报审阅节省了 80% 的时间。

3.2   


证券公司 :智能复核债券募集说明书

中信证券、中信建投证券、中金公司、海通证券、华泰联合证券、国泰君安证券、招商证券、国信证券等证券公司,也积极拥抱文档智能技术,智能审核募集说明书、招股说明书等金融文档的各类错误,保障披露信息等一致性、规范性。

目前,市场上已出现能够满足金融机构智能化审核需求的相关应用产品。以某企业的“AutoDoc”为例,该系统基于深度学习技术,搭建自然语言处理模型、富文本结构提取模型,并与金融业务场景深度融合,可实现文档智能纠错、数据验证、一致性核查等功能。Word、PDF、扫描件等常见文档格式都可以很好地支持印章、水印、模糊、涂写等常见的干扰情况,对其审核准确度影响较小。业务人员只需在系统中上传主副文档,即可由计算机完成财务指标和数据冲突的审查,增速占比关系的验算、财务指标公式的验算,以及信息披露规则的检查。

3.3  


银行 :智能审核银行流水

与此同时,在银行业务场景中,此类应用产品还针对于银行流水进行了专门的训练。不同银行的流水模板存在差异,文档智能处理系统可将不同格式的银行流水转化为标准格式的数据,将账户信息、交易明细存储起来,方便后续的完整性核查、异常交易核查。

例如银行企业金融业务部门中应用较多的“Grater”系统,对于异常大额资金、异常高频交易、公司高管向发行人付款等交易行为,可自动进行预警提示,扩大银行流水核查的深度和广度,系统性防范金融风险。通过其他数据源的对接,此类系统还可以实现银企对账、资金追踪等功能,挖掘异常流水信息的“蛛丝马迹”,辅助业务人员分析决策。

4 


总结

从以上的文档智能发展、技术框架、监管科技相关应用的介绍中我们可以看到,无论是监管部门还是金融机构,都在积极拥抱文档智能并将新技术融入到业务流程中,探索更多有价值的落地场景。随着文档智能的发展和应用场景的增加,AI 将代替人工进行更多、更关键的文档处理任务,这对相关算法的可信性提出了更高的要求。后续的文档智能研究工作,需突破技术瓶颈,建立更为严谨的文档智能处理结果置信度测量方法,并进一步解决深度学习算法的伪相关问题。

对于科技公司和研究部门来说,一方面需要在学术研究上钻之弥深,另一方面也需要建立起学界和业界之间的桥梁,共同推动文档智能和监管科技的发展,在解放人力的同时优化整个监管流程,提高监管质量、投资透明度以及信息披露质量。

图片

  • 30
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值