DeepDive：从非结构化数据建立结构化信息并集成到已有数据库的工具

最新推荐文章于 2024-09-23 17:58:48 发布

Tomsen_Tian

最新推荐文章于 2024-09-23 17:58:48 发布

阅读量2.2k

点赞数

分类专栏：自然语言处理文章标签：知识抽取关系抽取 NLP DeepDive

本文链接：https://blog.csdn.net/changfengxia/article/details/80592476

版权

DeepDive是一个用于从非结构化数据中抽取和整合信息的系统，尤其适用于处理混合在文本、表格和图片中的混乱数据。它通过机器学习算法减少噪音和不确定性，支持用户构建端到端的数据通道，并能与多种工具如Tablaeu和Excel集成。DeepDive的独特之处在于其易用性和概率统计推断能力，适合于多个领域的专家使用，包括古生物学、基因学等。

摘要由CSDN通过智能技术生成

简介

DeepDive是一个混乱数据中抽取有效数据的系统。混乱的数据包括混合在文本、表格和图片等中的非结构化数据而难以被软件处理。DeepDive帮助从非结构化数据中抽取数据并整合到已有的结构化数据库中。DeepDive被用来抽取数据实体中的复杂关系并且推断出他们之间的联系。数据被抽取到数据库中后，大家就可以使用一系列常用工具，例如Tablaeu和Excel等可视化分析工具进行数据处理。
主要功能

DeepDive是一类新型的数据管理系统让人们能够解决数据抽取、整合和预测问题，最终建立一个复杂的端到端的数据通道，比如非结构化数据BI系统。通过帮助用户建立他们的端到端系统，DeepDive可以让用户专注于提升他们应用质量的那部分工作。之前的一些系统要求开发者完成抽取、整合和其他模块而忽视了如何提升他们数据产品的质量。DeepDive的关键点是如何在更短的时间内提供更高质量的数据。

基于DeepDive的系统可以被没有机器学习经验的用户使用包括古生物学、基因学甚至人口贩卖研究等。DeepDive是一个使用机器学习算法的训练系统来减少各种形式的噪音和不确定性。通过Mindtagger接口、基于规则的丰富的结构化领域的知识让用户能够在较低的反馈下完成系统训练的工作。DeepDive是要让没有机器学习实践的专家们也能使用它。它的一个关键的技术创新包括解决大范围的概率统计推断问题。它和传统的系统几个不一样的地方在于：

DeepDive要求开发者思考特征而不是算法，而其他机器学习系统要求开发者思考聚类算法、分类算法的使用等。而DeepDive基于联合推理的算法让用户只需要关心信号或者特征本身。
DeepDive系统能够获得更高的质量：PaleoDeepDive在科学领域知识抽取能力和实体关系抽取能力上比人类更胜一筹。
DeepDive很明确的知道数据经常有噪声和误差：名字被误拼、自然语言有多意或者人类自己犯错。通过考虑这些误差，DeepDive为每一个决断进行复杂的可能性计算。比如如果DeepDive告知可能性为0.9，那么证明事