DeepDive:从非结构化数据建立结构化信息并集成到已有数据库的工具

DeepDive是一个用于从非结构化数据中抽取和整合信息的系统,尤其适用于处理混合在文本、表格和图片中的混乱数据。它通过机器学习算法减少噪音和不确定性,支持用户构建端到端的数据通道,并能与多种工具如Tablaeu和Excel集成。DeepDive的独特之处在于其易用性和概率统计推断能力,适合于多个领域的专家使用,包括古生物学、基因学等。
摘要由CSDN通过智能技术生成

简介

DeepDive是一个混乱数据中抽取有效数据的系统。混乱的数据包括混合在文本、表格和图片等中的非结构化数据而难以被软件处理。DeepDive帮助从非结构化数据中抽取数据并整合到已有的结构化数据库中。DeepDive被用来抽取数据实体中的复杂关系并且推断出他们之间的联系。数据被抽取到数据库中后,大家就可以使用一系列常用工具,例如Tablaeu和Excel等可视化分析工具进行数据处理。
主要功能

DeepDive是一类新型的数据管理系统让人们能够解决数据抽取、整合和预测问题,最终建立一个复杂的端到端的数据通道,比如非结构化数据BI系统。通过帮助用户建立他们的端到端系统,DeepDive可以让用户专注于提升他们应用质量的那部分工作。之前的一些系统要求开发者完成抽取、整合和其他模块而忽视了如何提升他们数据产品的质量。DeepDive的关键点是如何在更短的时间内提供更高质量的数据。

基于DeepDive的系统可以被没有机器学习经验的用户使用包括古生物学、基因学甚至人口贩卖研究等。DeepDive是一个使用机器学习算法的训练系统来减少各种形式的噪音和不确定性。通过Mindtagger接口、基于规则的丰富的结构化领域的知识让用户能够在较低的反馈下完成系统训练的工作。DeepDive是要让没有机器学习实践的专家们也能使用它。它的一个关键的技术创新包括解决大范围的概率统计推断问题。它和传统的系统几个不一样的地方在于:

DeepDive要求开发者思考特征而不是算法,而其他机器学习系统要求开发者思考聚类算法、分类算法的使用等。而DeepDive基于联合推理的算法让用户只需要关心信号或者特征本身。
DeepDive系统能够获得更高的质量:PaleoDeepDive在科学领域知识抽取能力和实体关系抽取能力上比人类更胜一筹。
DeepDive很明确的知道数据经常有噪声和误差:名字被误拼、自然语言有多意或者人类自己犯错。通过考虑这些误差,DeepDive为每一个决断进行复杂的可能性计算。比如如果DeepDive告知可能性为0.9,那么证明事
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值