TextIn是合合信息旗下的智能文档处理平台,在智能文字识别领域深耕17年,致力于图像处理、模式识别、神经网络、深度学习、STR、NLP、知识图谱等人工智能领域研究。凭借行业领先的技术实力,为扫描全能王、名片全能王等智能文字识别产品提供强大的底层技术支持,并为企业、开发者、个人用户提供智能文字识别引擎、产品、云端服务。
立足AI时代,TextIn以深厚的技术积累为基础,接连推出通用文档解析、智能文档抽取、通用文本向量等技术,赋能大模型文档应用落地、RAG与Agent开发,成为大模型的“加速器”。
本届世界人工智能大会(WAIC)期间,合合信息为大模型打造的“加速器”解决方案备受关注。
通用文档解析,让大模型文档应用更快更优
随着大模型应用中文档智能交互在C端、B端各类场景的落地,用户对快速、准确的文档解析工具的需求逐渐升高。C端场景下,用户的常用功能包括:要求大模型根据上传文件完成知识问答,给出关联信息建议,以及提供专业性分析参考等。文件格式、类型的丰富性导致解析稳定性难以保证。而企业级应用对文档解析精度有更高的要求,企业自建知识库、RAG系统开发都要求高效稳定的解析工具。
目前,大模型在文档互动中的表现仍有待提升。文档解析的准确度对大模型互动表现相当重要,解析不精准会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。当文档中的表格、公式、图表等复杂元素不能被正确解析时,模型可能会提供错误或不完整的答案。以下图的学术论文为例,大模型问答产品无法获取扫描版论文表格中的关键数据。
使用TextIn文档解析工具,将文件转化为Markdown格式后再次上传大模型并提出相同问题,大模型在解析工具的辅助下,顺利给出正确答案。
此外,在本届WAIC现场,参观者选择了医学、金融、社会学等多个知识领域的文档,向大模型提问专业问题,例如对特定表格内容的总结、关键要素的分析等。对比测试结果显示,加载了文档解析引擎的大模型,在回答问题的速度、详细程度、准确度上更胜一筹。
图:大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。
使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。
TextIn通用文档解析工具利用强大的文字识别和文档理解能力,识别文档或图片中的文字信息,并按常见的阅读顺序进行还原,赋能大语言模型的数据清洗和文档问答任务。支持标准的年报、文书、函件、合同等文档内容,兼容扫描文档和电子PDF文件。
解析工具以多文档元素识别能力和版面分析关键技术为核心,突破多项技术难点,具备全量的扫描件识别能力,既支持单张的卡、证、票,也支持数百页的扫描版文档;拥有精准的表格还原能力,面对无线表、跨页表格、合并单元格、密集表格、手写字符、公式等识别解析难点,也能做到不漏检、不错检、内容准确;对多栏、多图表的复杂版面文件进行阅读顺序还原,支持Markdown、Json等多种格式输出,为大模型提供最“便捷舒适”的序列文字。
此外,凭借文档树提取关键技术,TextIn文档解析可为长文档构建文档树,判断逻辑结构,为后续Embedding优化提供良好基础。
目前,TextIn文档解析已将100页文档解析速度提升至最快1.5秒以内,为大模型训练、微调与文件量大、时效性高的机构级业务场景保障稳定的技术支撑。
立即试用:https://cc.co/16YSIZ
通用文本向量,有效提升中文语义理解与召回
WAIC现场,acge_text_embedding大模型一经展出就成为了众多与会者关注的焦点。
Embedding 是一种用于机器学习和自然语言处理领域的表示技术,它将高维的离散数据(如单词、句子或者图像的特征等)转换为低维的连续向量,这些向量被称为嵌入(embeddings),它们能够捕捉到数据的语义特征和关系,将单词、短语或整个文档的语义和上下文信息封装在一个密集的、低维的向量空间中[1];Embedding在自然语言处理和机器学习中起着关键作用,是基础、核心且经典的建模任务,对于各种不同的下游NLP任务是必不可少的,如分类、聚类、检索、句子相似性判断等。
从Word2Vec到BERT表征模型、再到现如今的大模型,Embedding 建模方法在不断创新迭代。不论在传统的搜索[2]、问答场景,还是如今大语言模型(LLM)驱动的检索增强生成(Retrieval-Augmented Generation, RAG)场景中[3],Embedding 技术一直扮演着语义理解的核心角色。
基于embedding的检索系统流程图[2]
今年三月,合合信息发布的文本向量化模型 acge_text_embedding(简称“acge模型”)在中文文本向量化领域取得了重大突破,荣获 Massive Text Embedding Benchmark (MTEB) 中文榜单(C-MTEB)第一名的成绩。
为提高整体召回效果,TextIn团队采用对比学习技术[4],通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示;重视数据挖掘,构造多场景、数量庞大的数据集提升模型泛化能力,挑选高质量数据集加快模型收敛。技术开发过程中,采用多任务混合训练,多loss适配场景,适应各种下游任务,避免模型“偏科”;引入持续学习训练方式[5],改善引入新数据后模型灾难性遗忘问题;同时运用MRL技术[6],训练可变维度的嵌入,提高处理速度,降低了存储需求。
与目前C-MTEB榜单上排名前列的开源模型相比,合合信息发布的acge模型较小,占用资源少;模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,使应用者能够根据具体场景去合理分配资源。
当前,acge模型已在多个应用场景下展现其优势:
(a) 文档分类:通过ocr技术精确识别图片、文档等场景中的文字,利用acge强大的文本编码能力,结合语义相似度匹配技术,构建通用分类模型;
(b) 长文档信息抽取:通过文档解析引擎与层级切片技术,利用acge生成向量索引,检索抽取内容块,提升长文档信息抽取模型精度;
(c) 知识问答:通过文档解析引擎与层级切片技术,利用acge生成向量索引,定位文件内容,实现精准问答。
产品试用通道:https://cc.co/16YSIr
智能文档抽取,在任意文档中获取你想要的内容
随着文本数据关系的日益复杂化,传统的信息抽取技术面临着诸多挑战。深度学习模型的训练往往需要大量的高质量标注的训练样本,依赖规则实现上下文对话,新样本如果变换了行文方式则将难以保证抽取效果,模型泛化能力不强,这就导致基于传统深度学习算法进行标注训练的方式成本非常高昂。
TextIn智能文档抽取产品,依托自研垂直领域语义模型,并结合了强大的文字识别、文档解析、文档检索和文本生成四项关键技术,让计算机模拟人类的推理方式,来识别在训练阶段从未见过的新事物,实现开箱即用的“零样本”抽取。
与以往通过标注训练实现文档结构化抽取不同,用户只需在TextIn智能文档抽取直接配置需要提取的关键字段。同时,TextIn智能文档抽取具备极强的泛化性。以国际结算业务场景为例,传统标注训练的方式下,需针对每一种不同版式进行大量的样本标注及模型训练,但每一份海外单据各不相同、版式无法穷尽,传统方式显然不可行,不仅标注训练的工作量极大,效果上也无法保证各类版式下的准确率。
TextIn智能文档抽取模块对非标准格式文件具备强大的语义理解能力,可以识别并抽取各类形制、包含手写字符的文件,无需标注训练,即可达到精准的抽取效果。
Packing List 版式1
Packing List 版式2
TextIn智能文档抽取既支持单页的非标卡证、票据、表单,如海外invoice、国际信用证、电汇凭证、不动产权证等,也支持几十甚至上百页的长文档,如购销合同、借款合同、基金合同等。
在涉及大量文件处理的行业领域,精准的文档抽取能力是业务解决方案中的关键环节,可以有效提升企业与机构工作效率。
试用产品:https://cc.co/16YSIa
AI浪潮中,大模型的应用落地正成为技术革新的焦点。TextIn文档智能工具作为大模型的“加速器”,在实际应用中发挥着关键作用。
文档智能工具能够将非结构化的文本数据转化为结构化信息,为机器学习提供高质量的输入,便于大模型理解和处理语言,并迅速从中提取有效信息。在法律、金融、医疗及众多领域中,文档智能正在成为非结构化数据治理、数智化升级的关键驱动力,推动着行业的快速发展和创新。
这些技术的应用,不仅提高了数据处理的效率,也为决策提供了更加精准的数据支持,推动了各行各业的数字化转型。随着技术的不断进步,大模型及其应用工具将在未来的智能时代扮演更加重要的角色。
[1] Nils Reimers and Iryna Gurevych. Sentence-bert: Sentence em_x0002_beddings using siamese bert-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3982–3992, 2019.
[2] Huang, Jui-Ting, Ashish Sharma, Shuying Sun, Li Xia, David Zhang, Philip Pronin, Janani Padmanabhan, Giuseppe Ottaviano and Linjun Yang. “Embedding-based Retrieval in Facebook Search.” Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (2020): n. pag.
[3] Gao, Yunfan, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Qianyu Guo, Meng Wang and Haofen Wang. “Retrieval-Augmented Generation for Large Language Models: A Survey.” ArXiv abs/2312.10997 (2023): n. pag.
[4] Tianyu Gao, Xingcheng Yao, and Danqi Chen. Simcse: Simple contrastive learning of sentence embeddings. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6894–6910, 2021.
[5] Kirkpatrick, James, Razvan Pascanu, Neil C. Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran and Raia Hadsell. “Overcoming catastrophic forgetting in neural networks.” Proceedings of the National Academy of Sciences 114 (2016): 3521 - 3526.
[6] Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder, Kaifeng Chen, Sham Kakade, Prateek Jain, et al. Matryoshka representation learning. Advances in Neural Information Processing Systems, 35:30233–30249, 2022.