<转>浅谈NLP

what how why

我们很多人都在中学语文课上,听老师强调过阅读理解要抓住几个WH的重要性:who/what/when/where/how/why(Who did what when, where, how and why?). 抓住了这些WH,也就抓住了文章的中心内容。作为对人的阅读理解的仿真,设计问答系统也正是为了回答这些WH的问题。值得注意的是,这些 WH 问题有难有易,大体可以分成两类:有些WH对应的是实体专名,譬如 who/when/where,回答这类问题相对容易,技术已经成熟。另一类问题则不然,譬如what/how/why,回答这样的问题是对问答学界的挑战。

What/Who is X?类型的问题是所谓定义问题,只有一个 X 作为输入,非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句(而不是一个词或词组)。由于任何人或物体都是处在与其他实体的多重关系之中(还记得么,马克思说人是社会关系的总和),要想真正了解这个实体,比较完美地回答这个问题,一个简单的定义是不够的,最好要把这个实体的所有关键信息集中起来,给出一个全方位的总结(就好比是人的履历表与公司的简介一样),才可以说是真正回答了 What/Who is X 的问题。

How 类型的问题搜寻的是解决方案。同一个问题,往往有多种解决方案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。

Why 类型的问题,是要寻找一个现象的缘由或动机。这些原因有显性表达,更多的则是隐性表达,而且几乎所有的原因都不是简单的词或短语可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。

指标

长一段时间,学界测量一个系统使用的是两个指标是:
1 查准率(precision:准确性, 即抓到的有多大比例是抓对了的);

 Precision = correct 查对数 / (correct 查对数 + spurious 查错数)

2 查全率(recall:覆盖面,即所有该抓到的有多大比例真地抓到了)。

 Recall = correct 查对数 / (correct 查对数 + missing 查漏数)

两项指标综合水平(术语叫 F-score)都很高的系统非常不容易。但在信息爆炸的时代,在面对海量数据,一个更重要的指标是系统的吞吐量(through-put),系统可以不可以真正地 scale-up。

三个难题

目前的 NLP发展可以说解决了三个信息搜索的难题:
1 解决了搜索 how 的难题;
2 解决了搜索 why 的难题;
3 解决了对客户反馈情报及其动机的抽提(譬如客户对一个产品的好恶),涉及主观性言语(subjective language),叫 sentiment extraction

how QA现状

各大巨头做了知识图谱,用到了What QA,还没有任何一家用到了How QA。对于目前主流的搜索引擎的商业模式,靠的不是向最终用户收费,而是提高用户的体验和粘性,然后向广告主收费。

知识图谱

这年头只要提到知识图谱就吸引眼球了。这是谷歌等“盗用”了学界的信息抽取(IE)的概念而火起来的时髦词。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值