NLP-对话式交互技术

对话式交互技术原理及流程揭秘

http://www.infoq.com/cn/articles/alibaba-AI-voic?useSponsorshipSuggestions=true&utm_source=articles_about_AI&utm_medium=link&utm_campaign=AI


语音识别 ASR

ASR(Automatic Speech Recognition)直译为自动语音识别,是一种通过声学模型和语言模型,将人的语音识别为文本的技术。近年来,随着深度学习在语音识别中的广泛使用,识别的准确率大大提高,让这项技术能被广泛地应用于语音输入、语音搜索、实时翻译、智能家居等领域,让人与机器的语音交互变为可能。

语义理解 NLU

语音识别只是知道我们说了什么,但真正要理解我们说的是什么,就需要依靠NLU这项技术。NLU(Natural Language Understand)直译为自然语言理解,是NLP(Natural Language Processing,自然语言处理)的一个子集,专注于“口语表达和对话”方向的自然语言处理。我们首先快速了解一下NLP,NLP研究主要用来解决下面这些问题:

  • 分词:中文的书写词语之间不会用空格等符号来分割,分词就是将汉字序列切分成词序列,因为在汉语中,词是承载语义的基本单元。比如从北京飞上海这句话的分词为:从 北京 飞 上海。
  • 词性标注:词性用来描述一个词在上下文中的作用,如名词、动词、形容词等,词性标注就是识别这些词的词性,来确定其在上下文中的作用。
  • 命名实体识别:在句子中定位并识别人名、地名、机构名、数字、日期等实体。
  • 文本分类:文本分类就是将一篇文档归入预定义类别中的一个或几个,比如将某一类邮件归类为垃圾邮件,区分不同新闻的类型等。
  • 情感分析:情感分析是找出说话者或文本作者对某个话题的两极性观点(积极或消极)、情绪(高兴、悲伤、喜欢、厌恶等)。

自然语言理解通过使用上述技术,完成指代消解、否定判断、语句泛化、口语归一化、ASR纠错等工作,识别人机对话中的领域和意图,获得对话任务的语义信息。


对话管理 DM

DM(Dialog Management)直译为对话管理,是对话式交互系统的核心,负责控制整个对话过程。主要包括对话上下文(Dialog Context)、对话状态跟踪(Dialog State Tracking)和对话策略(Dialog Policy)几部分。

  • 对话上下文:记录对话的领域、意图和词槽数据,每个领域可能包含多个意图的数据,一般以队列的形式存储。
  • 对话状态跟踪:每轮对话开始后,会结合本轮对话提供的语义信息和上下文数据,确定当前对话状态,同时会补全或替换词槽。
  • 对话策略:根据对话状态和具体任务决定要执行什么动作,比如进一步询问用户以获得更多的信息、调用内容服务等。 

对话生成 NLG

NLG(Natural Language Generation)直译为自然语言生成,即对话生成的技术。对于任务导向的对话来说,NLG基本以模板形式来实现。模板中的回复信息可由词槽或通过内容服务得到的数据来替换。对话生成的原则是符合自然语言交互的习惯,易于用户理解,最快完成对话。此外,NLG还可以用于引导用户的交流习惯,比如NLG的内容为"已经为你开启导航",可以引导用户在希望导航时,说"开启导航"。

语音合成 TTS

TTS(Text To Speech)是指语音合成技术。对话系统的输出是文本形式的NLG或者指令,当对话返回的内容是NLG时,通过TTS技术能将这些文本转换成流畅的语音,播放给用户。TTS技术提供语速、音调、音量、音频码率上的控制,打破GUI中传统的文字式人机交互方式,让人机沟通更自然。


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值