<转>浅谈NLP

最新推荐文章于 2024-06-02 10:02:14 发布

mathilde27

最新推荐文章于 2024-06-02 10:02:14 发布

阅读量370

点赞数

分类专栏： NLP 文章标签： nlp

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

what how why

我们很多人都在中学语文课上，听老师强调过阅读理解要抓住几个WH的重要性：who/what/when/where/how/why（Who did what when, where, how and why?）. 抓住了这些WH，也就抓住了文章的中心内容。作为对人的阅读理解的仿真，设计问答系统也正是为了回答这些WH的问题。值得注意的是，这些 WH 问题有难有易，大体可以分成两类：有些WH对应的是实体专名，譬如 who/when/where，回答这类问题相对容易，技术已经成熟。另一类问题则不然，譬如what/how/why，回答这样的问题是对问答学界的挑战。

What/Who is X？类型的问题是所谓定义问题，只有一个 X 作为输入，非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句（而不是一个词或词组）。由于任何人或物体都是处在与其他实体的多重关系之中（还记得么，马克思说人是社会关系的总和），要想真正了解这个实体，比较完美地回答这个问题，一个简单的定义是不够的，最好要把这个实体的所有关键信息集中起来，给出一个全方位的总结（就好比是人的履历表与公司的简介一样），才可以说是真正回答了 What/Who is X 的问题。

How 类型的问题搜寻的是解决方案。同一个问题，往往有多种解决方案，譬如治疗一个疾病，可以用各类药品，也可以用其他疗法。

Why 类型的问题，是要寻找一个现象的缘由或动机。这些原因有显性表达，更多的则是隐性表达，而且几乎所有的原因都不是简单的词或短语可以表达清楚的，找到这些答案，并以合适的方式整合给用户，自然是一个很大的难题。

指标

长一段时间，学界测量一个系统使用的是两个指标是：
1 查准率（precision：准确性, 即抓到的有多大比例是抓对了的）；

 Precision = correct 查对数 / （correct 查对数 + spurious 查错数）

2 查全率（recall：覆盖面，即所有该抓到的有多大比例真地抓到了）。

 Recall = correct 查对数 / （correct 查对数 + missing 查漏数）

两项指标综合水平（术语叫 F-score）都很高的系统非常不容易。但在信息爆炸的时代，在面对海量数据，一个更重要的指标是系统的吞吐量（through-put），系统可以不可以真正地 scale-up。

三个难题

目前的 NLP发展可以说解决了三个信息搜索的难题：
1 解决了搜索 how 的难题；
2 解决了搜索 why 的难题；
3 解决了对客户反馈情报及其动机的抽提（譬如客户对一个产品的好恶），涉及主观性言语（subjective language），叫 sentiment extraction

how QA现状

各大巨头做了知识图谱，用到了What QA，还没有任何一家用到了How QA。对于目前主流的搜索引擎的商业模式，靠的不是向最终用户收费，而是提高用户的体验和粘性，然后向广告主收费。

知识图谱

这年头只要提到知识图谱就吸引眼球了。这是谷歌等“盗用”了学界的信息抽取（IE）的概念而火起来的时髦词。

mathilde27

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
<转>浅谈NLP

文章1：立委科普：从产业角度说说NLP这个行当文章2：泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索文章3：知识图谱和问答系统what how why我们很多人都在中学语文课上，听老师强调过阅读理解要抓住几个WH的重要性：who/what/when/where/how/why（Who did what when, where, how and why?）. 抓住了这些WH，也就
复制链接

扫一扫