
【通用文本信息抽取技术白皮书】
文章平均质量分 90
从技术背景、发展历程与现状、常用的信息抽取模型及抽取方法等详细讲述通用文本信息抽取技术。
合合技术团队
上海合合信息科技股份有限公司
展开
-
【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的挑战
论文《 Survey on Deep Learning for Named Entity Recognition》总结了NER技术面临的挑战和未来发展方向。随着建模语言的进步和实际应用的需求,NER会得到研究人员更多的关注。另一方面,NER通常被视为下游应用程序的预处理组件。这意味着特定的NER任务由下游应用程序的需求定义,例如,命名实体的类型以及是否需要检测嵌套实体。以下是NER研究的以下进一步探索方向......原创 2022-08-22 09:26:36 · 891 阅读 · 0 评论 -
【技术白皮书】第四章:信息抽取技术产业应用现状及案例(下)
信息抽取技术已发展多年,相关产业也日趋成熟,下面是几种主要的信息抽取产业应用......原创 2022-08-17 12:07:35 · 3273 阅读 · 0 评论 -
【技术白皮书】第四章:信息抽取技术产业应用现状及案例(上)
信息抽取技术已发展多年,相关产业也日趋成熟,下面是几种主要的信息抽取产业应用:在企业签订合同确立合作的业务流程中,合同比对是必不可少的一个环节。合同在文本确定前,往往经历了反复修改、版本迭代,或者存在电子版与纸质版之间的增减差异。在签订合同时,需要确保用印合同与审核通过的合同文本一致,关键信息齐备,以避免范本使用、文本修改、阴阳合同、函证造假等风险。合合信息推出TextIn合同机器人,基于STR识别和NLP算法,开发出合同关键信息识别与抽取和合同比对两大核心能力,将合同文本进行自动识别与精准智能比对....原创 2022-08-15 16:50:19 · 4379 阅读 · 2 评论 -
文本信息常用的事件抽取模型
论文解决的是EE问题,提出PLMEE模型,模型由事件抽取模型和生成模型两部分组成,这两个模块都使用到了预训练语言模型来引入更丰富的知识。针对角色重叠问题,论文的抽取方法根据角色分离了元素预测,针对每个元素使用一组二分类器,预测元素的角色标签。并根据不同角色对该类型事件的重要性,对损失函数的权重进行了重分配。......原创 2022-07-29 17:06:08 · 2629 阅读 · 0 评论 -
文本信息事件信息抽取的方法
事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式,是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件,通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式,主要描述现实世界中事件发生的“谁、何时、何地、什么、为什么”和“如何”。在应用方面,该任务便于人们检索事件信息,分析人们的行为,促进信息检索、智能问答、知识图谱构建等实际应用。......原创 2022-07-29 16:44:02 · 2247 阅读 · 0 评论 -
文本信息常用的关系抽取模型
利用具有多实例学习的分段卷积神经网络(PCNN)进行远程监督关系提取,在PCNN的方法中,无需复杂的NLP预处理即可自动学习特征。PCNN还成功地在所提出的网络中设计了一个分段最大池层来捕获结构信息,并结合多实例学习来解决错误标签问题。实验结果表明,与同类方法相比,该方法具有显著的改进。......原创 2022-07-29 15:27:22 · 1290 阅读 · 0 评论 -
文本信息关系抽取的方法
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。原创 2022-07-29 11:49:48 · 1182 阅读 · 0 评论 -
文本信息抽取模型介绍——实体抽取方法:NER模型(下)
将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。......原创 2022-07-04 15:21:55 · 5022 阅读 · 0 评论 -
文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
导读:将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。.....原创 2022-07-01 14:27:33 · 1253 阅读 · 0 评论 -
【技术白皮书】第二章:OCR智能文字识别回顾——自然语言文本发展历程
从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。原创 2022-06-16 11:42:26 · 788 阅读 · 0 评论 -
【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
信息抽取是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。原创 2022-06-15 15:17:24 · 1107 阅读 · 0 评论