翁卓-CSDN博客

原创 letter2phone

https://www.aclweb.org/anthology/P10-1080.pdf

2020-10-26 20:52:55 215

shell脚本位置kaldi-master/egs/gop/s5/run.sh跑完log:feat-to-len scp:../s1/data/test-1000_hires/feats.scp ark,t:data/test_10short/tmp.len utils/subset_data_dir.sh: reducing #utt from 1000 to 10steps/nnet3/compute_output.sh --cmd run.pl --nj 1 --online-ivect

2020-09-22 20:53:55 1504 3

原创 kaldi cmvn

cur_sum.AddRowSumMat(1.0, input_part , 0.0); // input 列求和得到cur_sumcur_sumsq.AddDiagMat2(1.0, input_part, kTrans, 0.0); //Add the diagonal of a matrix times itself *this = diag(M^T M) + beta * *this (if trans == kTrans).variance.Scale(1.0 / window_f...

2020-09-14 00:29:03 354

原创 gstreamer

mp3 转 wavgst-launch-1.0 filesrc location=1.mp3 ! decodebin ! audioresample \! audioconvert ! audio/x-raw,format=S24LE,rate=48000 ! wavenc \! filesink location=out.wav利用speex 编解码插件:源代码出自https://stackoverflow.com/questions/32564312/problems-with-us

2020-09-09 19:55:58 390

原创音频知识点

ll *.mp3-rw-rw-r-- 1 joe joe 39204 7月 30 13:44 0000452f-5aff-4a48-b9a9-4e24218753a1.mp3-rw-rw-r-- 1 joe joe 30062 7月 30 19:46 9945b5b6-7b3c-4d7e-9d68-7d82953d124f.mp3-rw-rw-r-- 1 joe joe 8672 7月 29 19:43 b81fc3c5-6dfd-4176-b9ee-d107f3a12763.mp3fi.

2020-08-03 11:02:54 536

原创 shell编程计算1-1000中所有3或5的倍数之和

#!/bin/bashsum=0 int=1while((int<=1000))do if (( $int%3==0 )) || (( $int%5==0 ));then sum=$((sum+int)) fi let int++doneecho $sum; #!/bin/bash sum=0for((i=1;i<=1000;i++));do if (( $i%3==0 )) || (( $i%5==0 ));then ..

2020-07-07 15:08:33 3070

转载 master_worker

见过很多获取服务器本地IP的代码，个人觉得都不是很好。从网上搜索到一个靠谱的脚本，分享一下！通过 UDP 获取本机 IP，目前见过最优雅的方法这个方法是目前见过最优雅获取本机服务器的IP方法了。没有任何的依赖，也没有去猜测机器上的网络设备信息。而且是利用 UDP 协议来实现的，生成一个UDP包，把自己的 IP 放如到 UDP 协议头中，然后从UDP包中获取本机的IP。这个方法并不会真实的向外部发包，所以用抓包工具是看不到的。但是会申请一个 UDP 的端口，所以如果经常调用也会比较耗时的，这里

2020-06-27 18:54:06 438

原创录音切分

m4a 及其他转MP3 流程首先 ffmpeg 转成wavffmpeg -y -i apple.m4a -ac 1 -ar 16000 apple.wav # 苹果m4a格式转成单通道 16k采样率的wav格式音频lameapple.wav apple.mp3切分录音:sox apple.wav apple_1.wav trim 0 5.5 # 对apple.wav 切分0s到 5.5s部分sox apple.wav apple_1.wav trim 62...

2020-06-05 10:41:04 576

原创实时语音识别GStreamer+kaldi 搭建介绍

一.搭建见博客 http://www.luyixian.cn/news_show_274565.aspx二. 结构 1) master worker client 利用websocket交互 2) gst 数据流媒体框架 3) kaldi 模块,先不介绍三. ws4py websocket 官方文档:https://ws4py.readthedocs.io/en/latest/sources/requirements/ ...

2020-05-26 21:13:55 853

原创 docker 学习

启动容器:docker run ubuntu:15.10 /bin/echo "Hello world"查看运行:docker psrunoob@runoob:~$ docker psCONTAINER ID IMAGE COMMAND ... 5917eac21c36 ubuntu:15.10 "/bin/sh -c 'while t…" ...CONTAINE.

2020-05-22 21:03:56 183

原创 Deterministic Pytorch： pytorch如何保证可重复性

1 代码要想整个模型是确定性的，我们需要设定好随机种子，这样当程序运行到具有random的模块时，由于伪随机的种子是相同的，那么随机得到的结果也是相同的。需要设定的随机种子如下。def set_seed(self, seed=0): random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) #为CPU设置种子用于生成随机数，以使得结果是确定的 torch.cuda.manual_seed(seed)

2020-05-18 20:53:51 1770

原创 Fully Convolutional Speech Recognition

待续

2020-05-13 21:28:37 609

原创 Kaldi当中语音数据增强有什么方法

整理知乎https://www.zhihu.com/people/leonjin回答，如侵权立删音速扰动sp：将音频速度扩展为0.9,1.0,1,1参考脚本utils/data/perturb_data_dir_speed_3way.sh音量扰动vp：参考脚本utils/data/perturb_data_dir_volume.sh上面两个都是用sox实现有加混响和加性噪声，参考脚本steps/data/reverberate_data_dir.pysteps/...

2020-05-11 21:26:55 1994 2

原创 Wav2Letter++ 自动分割标准ASG

查看原文https://www.infoq.cn/article/BK9LZ7b4txmsOTCQ-vLmWav2Letter 的核心是个声学模型，就像我们也许已经猜到的那样，它可以预测声波中的字母

2020-05-07 20:58:38 309

转载半监督分类的方式：self-training和co-training的算法简述

自我学习 (self-training)自我训练就是通过一系列的步骤，用已有的有标签的数据(labelled data)，去对剩下的还未标记的数据打标签。从而使得训练数据(training data)更多。具体步骤如下：初始化有标签数据和无标签数据重复 a) 用有标签的数据去训练一个模型b) 用这个模型来对没有标签的数据做预测c) 只选取最有把握的预测结果来标记数据(unlab...

2020-05-07 15:00:22 2813

原创 Self-training for end-to-end speech recognition

目录ABSTRACT1. INTRODUCTION3. SEMI-SUPERVISED SELF-TRAINING3.1. Filtering3.2. Ensembles4. EXPERIMENTSdata4.2. Experimental Setting4.3. Results4.3.1 Supervised Baseline4.3.2 Evaluating Beam Search4.3.3 C...

2020-05-07 10:48:08 830

原创 SpecAugment

论文地址：https://arxiv.org/pdf/1904.08779.pdfAugmentation Policy我们旨在构建一种直接作用于log mel频谱图的增强策略，以帮助网络学习有用的功能。出于以下目的的动机：这些功能应对时间方向的变形，频率信息的部分丢失和小部分语音片段具有较强的鲁棒性，因此我们选择了以下变形来制定策略：1、时间warp 是通过tensorflow的spar...

2020-04-29 23:41:18 1554

原创 SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半监督训练

作者分别来自俄亥俄州立大学，Salesforce，亚马逊 alexa，还是值得一读目录ABSTRACTINTRODUCTIONSUPERVISED LEARNING FOR ASREnd-to-end ASR with CTCABSTRACT尽管基于深度学习的端到端自动语音识别（ASR）系统大大简化了建模流程，但它们却遭受数据稀疏性的困扰。本文提出了一种用于半监督ASR的端到端系统的自训...

2020-04-29 15:46:39 566

原创贪心大纲

https://blog.csdn.net/hestendelin/article/details/105384299

2020-04-13 19:37:29 217

原创端到端asr系统搭建

验证了一个端到端语音识别系统，目前cer结果还不错。考虑怎么实际使用：1）服务器端：利用kaldi的流式处理方法（http://www.luyixian.cn/news_show_274565.aspx），会用到gsteamer 和kaldi 以及docker 方便部署2）客户端：需要做做模型的压缩，目前模型参数30M，实现本地部署还是很方便的，下一步可以自己尝试在ios实现本地asr系统。...

2020-04-01 21:15:06 1083

原创 nn参数计算

普通RNN:lstm:

2020-03-25 16:37:34 442

原创 pytorch 简单入门

前言:最近一直在用pytorch 训练端到端的语音识别系统（https://github.com/espnet/espnet），目前效果还不错，在相同的数据集上，和kaldi的差距一个点左右，但是想利用transformer-xl 进一步验证效果，必须自己动手改代码了，所以得赶紧学些pytorch，奥利给！！！pytorch 教程网站http://pytorch123.com/，中文看起来快些...

2020-03-24 17:53:00 321

原创 CSDN-markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2020-03-24 16:53:34 144