【NLP】自然语言处理-第五节 自动理解自然语言

第五节自动理解自然语言

目录
1 简介
2 词义消岐
3 指代消解
4 自动生成语言
5 机器翻译
6 人机对话系统

1 简介
我们一直在各种文本和Python 编程语言的帮助自下而上的探索语言。然而,我们也对通过构建有用的语言技术,开拓我们的语言和计算知识感兴趣。
在这里插入图片描述

从应用层面看,我们大家都需要帮助才能在网络上的文本中找到有用的信息。搜索引擎在网络的发展和普及中发挥了关键作用,但也有一些缺点。它需要技能、知识和一点运气才能找到这样一些问题的答案。

例如:“过去的一周里股市专家都对科技板块做了哪些预测?”。
让计算机来自动回答这些问题,涉及包括信息提取、推理与总结在内的广泛的语言处理任务, 将需要在一个更大规模更稳健的层面实施,这超出了我们当前的能力。

构建智能机器是人工智能长久以来的挑战,语言理解是智能行为的重要组成部分。这一目标多年来一直被看作是太困难了。然而,随着 NLP 技术日趋成熟,分析非结构化文本的方法越来越多,应用也来越广泛。

2 词义消歧
无论是汉语,英语甚至其他语言,每一个词语都有不同的含义,所谓的词意消歧就是通过文章的上下文来确定该词语在该文中所表达的含义。
词义消歧(WSD)是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。
例如说“饭碗”,可以理解为吃饭的碗,还有工作的意思。如果不能正确的判断语境,就会闹出笑话,比如说:老板叫你们带着“吃饭的家伙”去他办公室,别人都带了“电脑”,你却带了“饭碗”。
英文表达中也有很多类似的例子,自动消除歧义需要使用上下文,利用相邻词汇有相近含义这样一个简单又实用的方法。
【例5-1】另一个有关上下文影响的例子是词by,在几个句子中上下文不一样具体词的含义也是不同的。

a. The lost children were found by the searchers (搜索者 )
b.The lost children were found by the mountain (山上)
c.The lost children were found by the afternoon (下午)

3 指代消解
指代消解作为信息抽取领域的一个热点技术,从广义上看就是在文章中确定代词纸箱那个名词短语的问题。按照指向一般分为回指和预指,回指就是代词的先行词在代词的前面;预指指代词的先行词在代词的后面。一般包含人称代词,指示代词普通名词短语等
【例5-2】如下,第一个they指画,第二个they指小偷,第三个they指事件。

a.The thieves stole the paintings. They were subsequently sold.
b.The thieves stole the paintings. They were subsequently caught.
c.The thieves stole the paintings. They were subsequently found

【例5-2】如下,第一个they指画,第二个they指小偷,第三个they指事件。

a.The thieves stole the paintings. They were subsequently sold.
b.The thieves stole the paintings. They were subsequently caught.
c.The thieves stole the paintings. They were subsequently found

4 自动生成语言
如果我们能够解决自动语言理解等问题,我们将能够继续那些包含自动生成语言的任务,如自动问答和机器翻译。在自动问答中,一台机器要能够回答用户关于特定文本集的问题。
在这里插入图片描述

a. Text: … The thieves stole the paintings. They were subsequently sold. …
b.Human: Who or what was sold?
c.Machine: The paintings.
机器的回答表明,它已经正确的计算出they 是指 paintings,而不是 thieves。在机器翻译中,机器要能够把文本翻译成另一种语言文字,并准确传达原文的意思。
随着近年来文本数据的指数级增长和AI技术的不断发展,一些大型的公司通过收集的文本进行建模学习,实现了自动生成语言的技术,如腾讯的新闻写作机器人,自动生成股评等。

5 机器翻译
机器翻译(MT)都是语言理解的圣杯,人们希望能找到从根本上提供高品质的符合语言习惯的任意两种语言之间的翻译。
在这里插入图片描述

特定语言之间实用的翻译系统已经存在,有些已经集成到搜索引擎中了。但是,这些系统有一些严重的缺点。
我们可以在NLTK 的“babelizer”的帮助下探索它们(使用from nltk.book import * 导入本章的材料时,已经自动装载了)。
这个程序把提交的英文句子翻译成指定语言,然后把结果重新翻译回英文。这样重复 12 次结束或者得到曾经产生过的翻译时(表示一个循环)结束。
特定语言之间实用的翻译系统已经存在,有些已经集成到搜索引擎中了。但是,这些系统有一些严重的缺点。
以前在NLTK 的“babelizer”的帮助下探索它们(使用from nltk.book import * 导入本章的材料时,已经自动装载了),不过现在这个模块已经没有了。
机器翻译是困难的,因为一个给定的词可能有几种不同的解释(取决于它的意思),也因为必须改变词序才能与目标语言的语法结构保持一致。给出一个德文和英文双语的文档或者一个双语词典,我们就可以自动配对组成句子,这个过程叫做文本对齐。

6 人机对话系统
我们能看到的最基础一些人机系统有淘宝京东客服等,通过一些关键词与人进行沟通对话。语音的人机对话系统会稍微复杂,其中最为核心的技术是语音识别成文字(ASR)/语言理解(NPU)/文字合成为语音(TTS)
在这里插入图片描述

在人工智能的历史,主要的智能测试是一个语言学测试,叫做图灵测试:一个响应用户文本输入的对话系统能否表现的自然到我们无法区分它是人工生成的响应?相比之下,今天的商业对话系统能力是非常有限的,但在较小的给定领域仍然有些作用。

在这里插入图片描述

【例5-3】 NLTK 中的chatbot 提供了人机对话功能。可以使用nltk.chat.chatbots()来调用。
在这里插入图片描述

7 文本的含义
近年来,一个叫做文本含义识别(Recognizing Textual Entailment 简称 RTE)的公开的“共享任务”使语言理解所面临的挑战成为关注焦点。RTE 挑战为竞赛者开发他们的系统提供数据,但这些数据对“蛮力”机器学习技术来说是不够的。因此,一些语言学分析是至关重要的。
在这里插入图片描述

Thank you

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值