李宏毅DLHLP.01.Course overview

介绍

本门课程是2020年李宏毅老师新课:Deep Learning for Human Language Processing(深度学习与人类语言处理)
课程网站:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
B站视频:https://www.bilibili.com/video/BV1EE411g7Uk?t=222
在这里插入图片描述

HLP vs NLP

Natural Language Processing, NLP
• A language that has developed naturally in use (e.g. Chinese, English)
• As contrasted with an artificial language (e.g. JAVA, Python)
• Natural Language can be Speech or Text
• Most NLP textbook and course mainly focus on text (Text v.s. Speech = 9 : 1)
这门课叫HLP的原因:
• In this course, Text v.s. Speech = 5 : 5
• Speech processing is NOT only speech recognition.语音处理不单单是语音识别
• Only 56% languages have written form (Ethnologue, 21st edition). 有很多语言没有文字
• We don’t always know if the existing writing systems are widely used. 即使有文字也未必使用这些文字
公式输入请参考:在线Latex公式

语音概述

Human Language is complex:1 second has 16K(一万六千) sample points Each point has 256 possible values.
在这里插入图片描述
没有有人可以说同一段话两次,下面是老师说四次你好。
在这里插入图片描述

文字概述

William Faulkner, “Absalom, Absalom.”: “Just exactly like Father if Father had known ……” (1289 words)早期最长的句子
Jonathan Coe’s The Rotters’ Club has a sentence with 13,955 words (2014年世界最长句纪录)
这个纪录是随时可以打破的,例如下面三个句子一个比一个长一点。
Faulkner wrote, “Just exactly like Father …”
Pinker said Faulkner wrote, “Just exactly like Father …”
Who cares that Pinker said Faulkner wrote, “Just exactly like Father …”
可以看到句子是可以无限长,也就是说句子可以非常复杂。

本课程内容(六类)

在这里插入图片描述
在这里插入图片描述
虽然可以用Seq2Seq进行硬【 train 一发】,但是这个并不是最终解决方案,下面大概对这几种处理分别简单介绍。

Automatic Speech Recognition(ASR)

在这里插入图片描述
Traditional Speech Recognition 模型复杂,有很多模块构成
在这里插入图片描述
而在手机上实现的端到端语音识别系统仅需要80MB,而且用的还不是传统的Seq2Seq。

语音合成

在这里插入图片描述
在这里插入图片描述

语音转语音

在这里插入图片描述
Speech Separation:主要用于鸡尾酒会效应(cocktail party effect)分离合成会话
在这里插入图片描述
Voice Conversion:变声器(柯南)
按下图的思路是行不通的,例如你想要变声为川普,他出场费你出不起,出得起也不可能会说同样的中文。
在这里插入图片描述
因此:Speakers A and B are talking about completely different things.
在这里插入图片描述
老师还给了一个demo的例子: Only one utterance from each speaker (one-shot learning)
在这里插入图片描述

Input Audio, Output Class

在这里插入图片描述
应用:
Speaker Recognition:辨别声音所属人
在这里插入图片描述
Keyword Spotting
在这里插入图片描述
关键字唤醒,小米曾经有报道过,小爱能做到在日常对话中只相应关键问句,而非指向性的说话则不反应。
模型不能太大,否则太耗电,因为模型要不停的运行监听。

文字2文字

在这里插入图片描述
有很多应用:
翻译Translation
在这里插入图片描述
摘要Summarization
在这里插入图片描述
聊天Chat-bot
在这里插入图片描述
问答Question Answering
在这里插入图片描述
语法解析
在这里插入图片描述
以上应用原理相似,只会讲Question Answering

其他

本课程还包括:
Meta learning
Knowledge Graph知识图谱
Adversarial Attack
Explainable AI

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值