#Paper Reading# Toward an Architecture for Never-Ending Language Learning

论文题目:Toward an Architecture for Never-Ending Language Learning
论文地址:https://www.cs.cmu.edu/afs/cs.cmu.edu/Web/People/acarlson/papers/carlson-aaai10.pdf
论文发表于:AAAI 2010(A类会议)

论文大体内容:
本文构建出一个NELL(never-ending language learner)的framework,主要能够从web中永不停地抽取信息,构建Knowledge base,然后使用知识不断提升之后task的效果。最后经过67天的实验,NELL抽取出了242000+个beliefs,准确率是74%。

1、NELL的Knowledge包括两种:
①categories:由名词短语组成的,如cities, companies, and sports teams;
②relations:一对名词短语之间的关系,如hasOfficesIn(organization, location);

2、NELL framework:
这里写图片描述
①CPL(Coupled Pattern Learner):使用名词短语与上下文模式(“mayor of X” and “X plays for Y ”)的共现统计关系进行抽取categories和relations;
②CSEAL(Coupled SEAL):对categories和relations进行query互联网的内容,看是否有互斥的relation,用于过滤抽取到的categories和relations;
③CMC(Coupled Morphological Classifier):对每个category建立一个binary L2-regularized logistic regression models,用于对名词短语的分类,确定是否为categories;
④RL(Rule Learner):用于学习rules,学习到的rules用于推断新的关系实例;
⑤KI(Knowledge Integrator):使candidate facts提升为beliefs,包括两种策略,(i)上面的4个components中有一个的后验概率特别高(>0.9);或者(ii)有多个components的后验概率都比较高;
⑥belief与fact的区别:belief是高置信度的fact,通过人工评测,存在时效性的fact,如coach of the team,在这里也可以转化为belief,没有排除时效性的限制;
⑦Knowledge base的表示:NoSQL的多个key-value[1];
这里写图片描述
这里写图片描述

3、beliefs的评测标准:人工评测[2];
这里写图片描述

4、CPL,CSEAL,CMC每次迭代(每天)都运行一次. RL每10次迭代(每10天)运行一次,所以relations的生成量有毛刺;
这里写图片描述

5、最终经过初始输入的123个categories,55个relation跑了67天,NELL抽取出了242000+个beliefs,平均准确率是74%。
这里写图片描述
这里写图片描述

参考资料:
[1]、https://www.cs.cmu.edu/~tom/pubs/theo_framework_1989.pdf
[2]、http://rtw.ml.cmu.edu/rtw/

以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值