MessyPaste-CSDN博客

原创深度学习与人类语言处理李宏毅2020课程精华提要（5）语言模型

视频主页：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看（对应P9）：https://www.bilibili.com/video/BV1RE411g7rQ资料汇总：度盘密码: 4v5i（以上资料来源于网络）以下内容只是对上述资料进行提炼，建议观看原视频，感谢李宏毅老师和其团队的辛苦付出！前言作者在一开始的时候，就提出了一个问题：为什么如今进入了全deep learning 时代还需要语言模型？根据LAS模型，我

2021-06-17 15:39:11 390

原创深度学习与人类语言处理李宏毅2020课程精华提要（4）模型对齐（Alignment）

视频主页：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看（对应P7）：https://www.bilibili.com/video/BV1RE411g7rQ资料汇总：度盘密码: 4v5i（以上资料来源于网络）以下内容只是对上述资料进行提炼，建议观看原视频，感谢李宏毅老师和其团队的辛苦付出！前言语音识别模型有两个基本问题：Decoding问题和Training问题，Decoding问题是解码问题，给定模型参数和输入的情

2021-06-17 14:43:24 1407

原创深度学习与人类语言处理李宏毅2020课程精华提要（3）模型的构成之HMM角度

视频主页：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看（对应P6）：https://www.bilibili.com/video/BV1RE411g7rQ资料汇总：度盘密码: 4v5i（以上资料来源于网络）以下内容只是对上述资料进行提炼，建议观看原视频，感谢李宏毅老师和其团队的辛苦付出！前言上节是从neural network（神经网络）的角度讨论了语音识别的模型，包括常见的模型：LAS和CTC等，这节从HMM角度

2021-06-16 15:09:13 504

原创深度学习与人类语言处理李宏毅2020课程精华提要（2）模型的构成之Seq-to-Seq角度

视频主页：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看（对应P5-P6-P7）：https://www.bilibili.com/video/BV1RE411g7rQ资料汇总：度盘密码: 4v5i（以上资料来源于网络）以下内容只是对上述资料进行提炼，建议观看原视频，感谢李宏毅老师和其团队的辛苦付出！前言上一讲，作者讲了语音识别模型的big picture，即模型的输入输出是什么。下面涉及模型的具体组成，作者讲解的思

2021-06-16 13:07:39 528

原创深度学习与人类语言处理李宏毅2020课程精华提要（1）模型的输入与输出

视频主页：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看：https://www.bilibili.com/video/BV1RE411g7rQ?p=3资料汇总：度盘密码: 4v5i（资料来源于网络）以下内容只是对上述资料进行提炼，建议观看原视频，感谢李宏毅老师和其团队的辛苦付出！Big picture语音识别任务的big picture，输入是一段语音，但这段语音不会直接作为模型的输入，而是要转为向量表示（比如通

2021-06-15 11:42:01 749

原创语音识别GMM-HMM中的GMM的作用

关于GMM作用的理解：GMM是为了后续HMM所服务的GMM是对所有的triphone进行聚类，输入是MFCC，输出是在不同triphone下的概率值MFCC能够通过GMM确定属于哪一个triphone因为无法对齐，所以GMM不能直接训练聚类GMM需要确定对齐方式后才能计算，然后通过参数更新对齐方式，直到模型收敛若有理解有误的地方还请指出，谢谢！参考文章：语音识别中的HMM-GMM模型：从一段语音说起传统语音识别（GMM+HMM）...

2021-06-12 17:23:06 736 1

原创 Kaldi官方文档知识点索引

参考参考 kaldi的全部资料_v0.7(未完成版本).pdf的目录（文件下载链接: https://pan.baidu.com/s/1oFAlE7oBI1879FXoZYbywg 密码: m33k）上述文件有许多网址已经移动了，我修改成为了最新的，供快速检索知识点索引0.kaldi 入门手册：https://kaldi-asr.org/doc/tutorial.html1.数据准备：https://kaldi-asr.org/doc/data_prep.html2.特征提取： https

2021-06-09 21:00:49 425

原创 LiJian-kaldi搭建在线语音识别系统资料汇总

感谢视频制作者李健和视频上传者北洋村的热心分享原视频在：https://www.bilibili.com/video/BV19a4y1h7cB大家记得三连～说明Kaldi的资料比较少，对新手特别不友好，我也是无意中搜到了这个视频的资料，看完确实收获很大，学习的过程一方面是复现出作者的各种模型，另一方面，也想在心中形成kaldi的一个big picture。但这个视频并无相关的学习资料，另外视频的知识点的索引也不全面，我分享的目的也是希望大家一起搜集资料，互相分享，互相促进，所以这篇文章也会不断更新

2021-06-08 21:57:07 4058 8

原创维特比算法的python的简单实现

维特比算法的python简单实现简单介绍实现了李航书籍p210的例子，例子非常经典。我有三个盒子，每个盒子都有红球和白球，我观测到了三次结果：红、白和红，现在需要求出盒子的可能序列是什么。通过这个例子更加深刻理解“求解HMM的隐变量（这里是盒子的序列）”，也就是HMM的预测问题。两个矩阵pathtracingMatrix（追溯矩阵）和statedSavedMatrix（状态存储矩阵）pathtracingMatrix[i][j]存储的是第i时刻，第j状态的前t-1最有可能的状态statedSav

2021-06-04 14:27:20 687

原创语音技术随笔-初识语音识别

语音技术随笔-初识语音识别-时域角度人类在发音时，通过肺部气流经过气管，然后引起声带震动，形成声源，声源带动空气震动向前传播，形成波形（Waveform）（可以联想出波形图的特点：频率、相位、幅度）。由于我们计算机只能处理可计算问题，可计算问题一个基本前提是数据是有限长度的，计算机通过传感器得到的波形图，我们需要进行采样（Sampling），形成电压随着时间变化的波形，计算机中，时间是离散的，在某个时刻的电压也是离散的，这就形成了语音的数字信号。随后还需要进行量化，量化的过程是将每个采样值在幅度上再进行离

2021-05-26 15:04:13 236

原创 HRnet之目标检测环境搭建指南

最近实验了一下基于FasterRCNN的HRnet目标检测效果很不错，地址在https://github.com/HRNet/HRNet-Object-Detection但是环境真的太难了。。。我现在机器是1080ti+cuda10.2，pytroch也比较新，是1.2的，编译不了apex和源码，一直报各种奇怪的错误，我一般遇到这种无法安装的情况，不会大改机器配置，毕竟还有其他的环境在用（1...

2019-09-24 09:53:14 2855 5

原创让centernet支持2080ti和pytorch 1.x的方法

让centernet支持2080ti和pytorch 1.x的方法原官方的github地址在这里我已经测试过的环境：Ubuntu 18.04Conda python3.7cuda 10.2显卡nvidia rtx2080ti最新的pytorch(1.2.1)2080ti 无法直接运行 pytorch 0.4.x.，试了docker什么的都不行，实在没办法，但是找到了一篇教程，按...

2019-09-03 19:41:31 1048 4

weixin_42217661的博客