自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 深度学习与人类语言处理 李宏毅2020课程精华提要(5)语言模型

视频主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看(对应P9):https://www.bilibili.com/video/BV1RE411g7rQ资料汇总: 度盘 密码: 4v5i(以上资料来源于网络)以下内容只是对上述资料进行提炼,建议观看原视频,感谢李宏毅老师和其团队的辛苦付出!前言作者在一开始的时候,就提出了一个问题:为什么如今进入了全deep learning 时代还需要语言模型?根据LAS模型,我

2021-06-17 15:39:11 254

原创 深度学习与人类语言处理 李宏毅2020课程精华提要(4)模型对齐(Alignment)

视频主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看(对应P7):https://www.bilibili.com/video/BV1RE411g7rQ资料汇总: 度盘 密码: 4v5i(以上资料来源于网络)以下内容只是对上述资料进行提炼,建议观看原视频,感谢李宏毅老师和其团队的辛苦付出!前言语音识别模型有两个基本问题:Decoding问题和Training问题,Decoding问题是解码问题,给定模型参数和输入的情

2021-06-17 14:43:24 1214

原创 深度学习与人类语言处理 李宏毅2020课程精华提要(3)模型的构成之HMM角度

视频主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看(对应P6):https://www.bilibili.com/video/BV1RE411g7rQ资料汇总: 度盘 密码: 4v5i(以上资料来源于网络)以下内容只是对上述资料进行提炼,建议观看原视频,感谢李宏毅老师和其团队的辛苦付出!前言上节是从neural network(神经网络)的角度讨论了语音识别的模型,包括常见的模型:LAS和CTC等,这节从HMM角度

2021-06-16 15:09:13 362

原创 深度学习与人类语言处理 李宏毅2020课程精华提要(2)模型的构成之Seq-to-Seq角度

视频主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看(对应P5-P6-P7):https://www.bilibili.com/video/BV1RE411g7rQ资料汇总: 度盘 密码: 4v5i(以上资料来源于网络)以下内容只是对上述资料进行提炼,建议观看原视频,感谢李宏毅老师和其团队的辛苦付出!前言上一讲,作者讲了语音识别模型的big picture,即模型的输入输出是什么。下面涉及模型的具体组成,作者讲解的思

2021-06-16 13:07:39 378

原创 深度学习与人类语言处理 李宏毅2020课程精华提要(1)模型的输入与输出

视频主页:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.htmlB站观看:https://www.bilibili.com/video/BV1RE411g7rQ?p=3资料汇总: 度盘 密码: 4v5i(资料来源于网络)以下内容只是对上述资料进行提炼,建议观看原视频,感谢李宏毅老师和其团队的辛苦付出!Big picture语音识别任务的big picture,输入是一段语音,但这段语音不会直接作为模型的输入,而是要转为向量表示(比如通

2021-06-15 11:42:01 590

原创 语音识别GMM-HMM中的GMM的作用

关于GMM作用的理解:GMM是为了后续HMM所服务的GMM是对所有的triphone进行聚类,输入是MFCC,输出是在不同triphone下的概率值MFCC能够通过GMM确定属于哪一个triphone因为无法对齐,所以GMM不能直接训练聚类GMM需要确定对齐方式后才能计算,然后通过参数更新对齐方式,直到模型收敛若有理解有误的地方还请指出,谢谢!参考文章:语音识别中的HMM-GMM模型:从一段语音说起传统语音识别(GMM+HMM)...

2021-06-12 17:23:06 605 1

原创 Kaldi官方文档知识点索引

参考参考 kaldi的全部资料_v0.7(未完成版本).pdf的目录(文件下载链接: https://pan.baidu.com/s/1oFAlE7oBI1879FXoZYbywg 密码: m33k)上述文件有许多网址已经移动了,我修改成为了最新的,供快速检索知识点索引0.kaldi 入门手册 :https://kaldi-asr.org/doc/tutorial.html1.数据准备:https://kaldi-asr.org/doc/data_prep.html2.特征提取: https

2021-06-09 21:00:49 265

原创 LiJian-kaldi搭建在线语音识别系统 资料汇总

感谢视频制作者李健和视频上传者北洋村的热心分享原视频在:https://www.bilibili.com/video/BV19a4y1h7cB大家记得三连~说明Kaldi的资料比较少,对新手特别不友好,我也是无意中搜到了这个视频的资料,看完确实收获很大,学习的过程一方面是复现出作者的各种模型,另一方面,也想在心中形成kaldi的一个big picture。但这个视频并无相关的学习资料,另外视频的知识点的索引也不全面,我分享的目的也是希望大家一起搜集资料,互相分享,互相促进,所以这篇文章也会不断更新

2021-06-08 21:57:07 3689 8

原创 维特比算法的python的简单实现

维特比算法的python简单实现简单介绍实现了李航书籍p210的例子,例子非常经典。我有三个盒子,每个盒子都有红球和白球,我观测到了三次结果:红、白和红,现在需要求出盒子的可能序列是什么。通过这个例子更加深刻理解“求解HMM的隐变量(这里是盒子的序列)”,也就是HMM的预测问题。两个矩阵pathtracingMatrix(追溯矩阵)和statedSavedMatrix(状态存储矩阵)pathtracingMatrix[i][j]存储的是第i时刻,第j状态的前t-1最有可能的状态statedSav

2021-06-04 14:27:20 546

原创 语音技术随笔-初识语音识别

语音技术随笔-初识语音识别-时域角度人类在发音时,通过肺部气流经过气管,然后引起声带震动,形成声源,声源带动空气震动向前传播,形成波形(Waveform)(可以联想出波形图的特点:频率、相位、幅度)。由于我们计算机只能处理可计算问题,可计算问题一个基本前提是数据是有限长度的,计算机通过传感器得到的波形图,我们需要进行采样(Sampling),形成电压随着时间变化的波形,计算机中,时间是离散的,在某个时刻的电压也是离散的,这就形成了语音的数字信号。随后还需要进行量化,量化的过程是将每个采样值在幅度上再进行离

2021-05-26 15:04:13 134

原创 HRnet之目标检测环境搭建指南

最近实验了一下基于FasterRCNN的HRnet目标检测效果很不错,地址在https://github.com/HRNet/HRNet-Object-Detection但是环境真的太难了。。。我现在机器是1080ti+cuda10.2,pytroch也比较新,是1.2的,编译不了apex和源码,一直报各种奇怪的错误,我一般遇到这种无法安装的情况,不会大改机器配置,毕竟还有其他的环境在用(1...

2019-09-24 09:53:14 2571 3

原创 让centernet支持2080ti和pytorch 1.x的方法

让centernet支持2080ti和pytorch 1.x的方法原官方的github地址在这里我已经测试过的环境:Ubuntu 18.04Conda python3.7cuda 10.2显卡nvidia rtx2080ti最新的pytorch(1.2.1)2080ti 无法直接运行 pytorch 0.4.x.,试了docker什么的都不行,实在没办法,但是找到了一篇教程,按...

2019-09-03 19:41:31 941 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除