李宏毅2020深度学习——人类语言处理
文章平均质量分 83
只是作简单的记录,不包含完整视频内容。
LHY视频只涉及原理,所以不必细究。
卢容和
这个作者很懒,什么都没留下…
展开
-
GNN图神经网络
小白来学习未接触过的GNN,先看看李宏毅第一节助教,再看简洁的技术喵Why do we need GNN?(助教)即应用How(助教)空间层面卷积图像图下图在第二节,问题是一个矩阵中无法用一个九宫格定义图中某一节点的邻居节点。所以使用频谱来间接完成。第一节中介绍模型的结构,但没说数据是如何表示,卷积是如何进行(不足之处),所以只能当阅读。GNN与DNN区别?(技术喵)DNN的tensor是存在于欧几里得空间,描述向量与向量之间的距离、大小、形状。而图是不属于欧几里得空间的一原创 2021-03-19 11:48:55 · 242 阅读 · 0 评论 -
李宏毅2020人类语言处理—P8语音辨识end
Language Model introductionLM:Estimated the probability of token sequence,估测一段token sequence出现的的几率token sequence:Y=y1,y2,...,ynY = y_1,y_2,...,y_nY=y1,y2,...,ynLM:P(y1,y2,...,yn)P(y_1,y_2,...,y_n)P(y1,y2,...,yn)HMM:使用Language Model是必需的,下图公式中的P(Y原创 2020-11-24 21:45:24 · 700 阅读 · 0 评论 -
李宏毅2020人类语言处理—P7
前言P6分析HMM、CTC、RNN-T如何穷举所有可能的alignment。下面只用RNN-T作为例子score computation原创 2020-11-24 12:16:22 · 182 阅读 · 0 评论 -
李宏毅2020人类语言处理—P6
视频目录bilibiliP1-course overviewP2-speech recognition introductionP3-LAS modelP4-CTC、RNN-T modelP5-HMM in speech recognitionP6-Alignment技术正文LAS,which has decoder:输入context vector C,输出probability distribution P(a)。无法找到全局最优,只能使用bean search。在训练的原创 2020-11-23 21:32:37 · 222 阅读 · 0 评论 -
李宏毅2020人类语言处理—P5
Model语音辨识的目标函数Hidden Markov Model,HMMtoken(Y的情况)选择character或者word的形式,对于HMM都太大了。所以需要转换:state是比phoneme更细的单位,do的uw与you的uw在phoneme中相同,为了区别就要划分更细的发音。HMM结构圆形为隐变量(状态S),长条为观测变量(acoustic feature X)条件:Transition Probability,状态转移矩阵:probability from one s原创 2020-11-22 22:57:46 · 174 阅读 · 0 评论 -
李宏毅2020人类语言处理—P4
Model 1Connectionist Temporal Classification,CTC [Graves,et al.ICML,2016] 解决on-line语音辨识(不需要听完整句话再作辨识),只有一个encoder模块,且不能使用双向RNN。问题: 每个acoustic input只代表10ms的语音,不是每个input都包含一个独特的token信息。所以模型要知道什么时候output空白信息(NULL),即这段语音听不到有用信息。如何处理空白信息和相同的语音预测size=V+1原创 2020-11-22 18:30:35 · 235 阅读 · 0 评论 -
李宏毅2020人类语言处理—P3
modelListen,Attend,and Spell(LAS)[Chorowski.et al,NLPS'2015]it is the typical seq2seq with attention.上半部encoderListen——encoder:acoustic features——>high-level representations1.Extract content information.2.Remove speaker variance,remove noise。Com原创 2020-11-22 01:30:24 · 236 阅读 · 0 评论 -
李宏毅2020人类语言处理—P2
Speech Recognitionspeech:a sequence of vector(length T, dimension d)text:a sequence of tokens(length N, V kinds of different tokens)T > NToken的单位,形式需要语言学家phoneme,音素(指一种语言中能区别两个词的最小语音单位)≤ 音标Lexicon,字典(word to phonemes)Grapheme,smallest unit原创 2020-11-17 19:54:44 · 243 阅读 · 0 评论 -
李宏毅2020人类语言处理—P1
人类语言处理(注重speech任务)== 自然语言处理(偏重Text任务)处理的对象:Text和Speech(语音)Speech processing is not only speech recognition。audio:1 second has 16k sample points, and each point has 256 possible values.所以没有人可以说同一段话两次本课程聚焦近3年的发展,探讨在“硬train一发”(把数据集丢进深度学习网络训练就能解决问题)之后的原创 2020-11-16 20:39:49 · 383 阅读 · 0 评论