【DeepDive】使用教程

一、DeepDive简介

deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。

二、DeepDive优势

  • deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法,分类算法,等用。在DeepDive的联合推理为基础的方法,用户只需指定必要的信号或特征
  • deepdive系统可以实现高质量:PaleoDeepDive比志愿者更高质量在提取复杂的知识科学领域和获奖的性能进入实体关系抽取的比赛
  • deepdive知道数据往往是嘈杂和不准确的:名字拼错的,自然语言是模糊的,人会犯错误。以这样的不精确性的考虑,deepdive计算校准对于每一个断言它使概率。例如,如果deepdive产生事实的概率是0.9,事实上90%可能是真的。
  • deepdive能够使用大量的数据从一个品种来源构建的应用程序使用。deepdive从数以百万计的文件,提取数据的网页,PDF文件,表格和数字。
  • deepdive允许开发者用某一领域的知识为了提高结果的质量写简单的规则告知推理(学习)process.deepdive也考虑到用户的反馈,对预测的准确性提高的预测。
  • deepdive能够使用数据学习“远亲”相反,大多数机器学习系统需要为每个预测冗长的训练。事实上,许多deepdive应用,尤其是在早期阶段,不需要传统的在所有的训练数据!
  • deepdive的秘密是一个可扩展的、高性能的推理和学习机过去几年,我们一直在努力使底层算法尽可能快的跑,技术率先在该项目是商业和开源工具,包括部分Madlib,黑斑羚,从产品Oracle,和低级别的技术,如“HOGWILD!他们也被列入微软的亚当和其他网络公司大

三、DeepDive使用教程

DeepDive安装

deepdive支持在linux和mac上安装,安装过程中需要在线下载资源,首先打开你的终端,开始安装
bash <(curl -fsSL git.io/getdeepdive)
### DeepDive installer for Mac
+ curl -fsSL https://github.com/HazyResearch/deepdive/raw/v0.8.x/util/install/install.Mac.sh
1) deepdive                 5) postgres
2) deepdive_examples_tests  6) run_deepdive_tests
3) deepdive_from_release    7) spouse_example
4) deepdive_from_source
# Select what to install (enter for all options, q to quit, or a number)? 1

deepdive在使用过程中,产生的数据都存放在数据库中,依赖于postgre、mysql等关系型数据库,可以直接输入如下命令在机器上安装postgre。

bash <(curl -fsSL git.io/getdeepdive) postgres

成功安装完了之后,则开始运行你的第一个例子

运行实例

1.下载实例
bash <(curl -fsSL git.io/getdeepdive) spouse_example

下载好了之后,需要修改一下db.url文件,将其中的数据库连接改为自己实际的连接路径。

2.数据加载
ln -s articles-1000.tsv.bz2 input/articles.tsv.bz2
deepdive do articles

当前步骤是将tsv中的文件导入到postgre中,为nlp做预备工作。

3.数据语义处理
deepdive do sentences

当前步骤是利用stanford-nlp将指定的文章分解成句子、单词,并且为这些词标注词性,标签等。依靠命名实体识别标签,我们能够识别出文章中提到的人物姓名

deepdive do person_mention

利用nlp处理后已经词性标记的句子,我们通过自定义python脚本来进行指定实体抽取。

deepdive do spouse_candidate

对于有监督的机器学习,该应用程序继续从这些候选人的背景下提取功能,并创建一个训练集编程发现有前途的正面和负面的例子,使用远程监督。

deepdive do spouse_feature

调用deepdive封装的ddlib工具包生成属性、文本特征集。

deepdive do spouse_label

通过启发规则(用户自己定义的关系规则)和已知数据(dbdata)对实体对进行distant supervise.

4.关系预测
deepdive do probabilities

使用处理后的数据,该应用程序构建了一个统计推断模型来预测是否提到一个正确的配偶或不提及,估计的参数(即,学习权重)的模型,并计算其边际概率。

  • 3
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 31
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑起来贼好看

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值