自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 letter2phone

https://www.aclweb.org/anthology/P10-1080.pdf

2020-10-26 20:52:55 128

原创 kaldi-gop

shell脚本位置kaldi-master/egs/gop/s5/run.sh跑完log:feat-to-len scp:../s1/data/test-1000_hires/feats.scp ark,t:data/test_10short/tmp.len utils/subset_data_dir.sh: reducing #utt from 1000 to 10steps/nnet3/compute_output.sh --cmd run.pl --nj 1 --online-ivect

2020-09-22 20:53:55 1315 3

原创 kaldi cmvn

cur_sum.AddRowSumMat(1.0, input_part , 0.0); // input 列求和得到cur_sumcur_sumsq.AddDiagMat2(1.0, input_part, kTrans, 0.0); //Add the diagonal of a matrix times itself *this = diag(M^T M) + beta * *this (if trans == kTrans).variance.Scale(1.0 / window_f...

2020-09-14 00:29:03 249

原创 gstreamer

mp3 转 wavgst-launch-1.0 filesrc location=1.mp3 ! decodebin ! audioresample \! audioconvert ! audio/x-raw,format=S24LE,rate=48000 ! wavenc \! filesink location=out.wav利用speex 编解码 插件:源代码出自https://stackoverflow.com/questions/32564312/problems-with-us

2020-09-09 19:55:58 199

原创 音频知识点

ll *.mp3-rw-rw-r-- 1 joe joe 39204 7月 30 13:44 0000452f-5aff-4a48-b9a9-4e24218753a1.mp3-rw-rw-r-- 1 joe joe 30062 7月 30 19:46 9945b5b6-7b3c-4d7e-9d68-7d82953d124f.mp3-rw-rw-r-- 1 joe joe 8672 7月 29 19:43 b81fc3c5-6dfd-4176-b9ee-d107f3a12763.mp3fi.

2020-08-03 11:02:54 389

原创 shell编程计算1-1000中所有3或5的倍数之和

#!/bin/bashsum=0 int=1while((int<=1000))do if (( $int%3==0 )) || (( $int%5==0 ));then sum=$((sum+int)) fi let int++doneecho $sum; #!/bin/bash sum=0for((i=1;i<=1000;i++));do if (( $i%3==0 )) || (( $i%5==0 ));then ..

2020-07-07 15:08:33 2885

转载 master_worker

见过很多获取服务器本地IP的代码,个人觉得都不是很好。从网上搜索到一个靠谱的脚本,分享一下!通过 UDP 获取本机 IP,目前见过最优雅的方法这个方法是目前见过最优雅获取本机服务器的IP方法了。没有任何的依赖,也没有去猜测机器上的网络设备信息。而且是利用 UDP 协议来实现的,生成一个UDP包,把自己的 IP 放如到 UDP 协议头中,然后从UDP包中获取本机的IP。这个方法并不会真实的向外部发包,所以用抓包工具是看不到的。但是会申请一个 UDP 的端口,所以如果经常调用也会比较耗时的,这里

2020-06-27 18:54:06 369

原创 录音切分

m4a 及其他转MP3 流程首先 ffmpeg 转成wavffmpeg -y -i apple.m4a -ac 1 -ar 16000 apple.wav # 苹果m4a格式 转成 单通道 16k采样率 的wav格式音频lameapple.wav apple.mp3切分录音:sox apple.wav apple_1.wav trim 0 5.5 # 对apple.wav 切分0s到 5.5s部分sox apple.wav apple_1.wav trim 62...

2020-06-05 10:41:04 349

原创 实时语音识别GStreamer+kaldi 搭建介绍

一.搭建 见博客 http://www.luyixian.cn/news_show_274565.aspx二. 结构 1) master worker client 利用websocket交互 2) gst 数据流媒体框架 3) kaldi 模块,先不介绍三. ws4py websocket 官方文档:https://ws4py.readthedocs.io/en/latest/sources/requirements/ ...

2020-05-26 21:13:55 776

原创 docker 学习

启动容器:docker run ubuntu:15.10 /bin/echo "Hello world"查看运行:docker psrunoob@runoob:~$ docker psCONTAINER ID IMAGE COMMAND ... 5917eac21c36 ubuntu:15.10 "/bin/sh -c 'while t…" ...CONTAINE.

2020-05-22 21:03:56 128

原创 Deterministic Pytorch: pytorch如何保证可重复性

1 代码要想整个模型是确定性的,我们需要设定好随机种子,这样当程序运行到具有random的模块时,由于伪随机的种子是相同的,那么随机得到的结果也是相同的。需要设定的随机种子如下。def set_seed(self, seed=0): random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) #为CPU设置种子用于生成随机数,以使得结果是确定的 torch.cuda.manual_seed(seed)

2020-05-18 20:53:51 1113

原创 Fully Convolutional Speech Recognition

待续

2020-05-13 21:28:37 443

原创 Kaldi当中语音数据增强有什么方法

整理 知乎https://www.zhihu.com/people/leonjin回答,如侵权立删音速扰动sp:将音频速度扩展为0.9,1.0,1,1参考脚本utils/data/perturb_data_dir_speed_3way.sh音量扰动vp:参考脚本utils/data/perturb_data_dir_volume.sh上面两个都是用sox实现有加混响和加性噪声,参考脚本steps/data/reverberate_data_dir.pysteps/...

2020-05-11 21:26:55 1772 2

原创 Wav2Letter++ 自动分割标准ASG

查看原文https://www.infoq.cn/article/BK9LZ7b4txmsOTCQ-vLmWav2Letter 的核心是个声学模型,就像我们也许已经猜到的那样,它可以预测声波中的字母

2020-05-07 20:58:38 230

转载 半监督分类的方式:self-training和co-training的算法简述

自我学习 (self-training)自我训练就是通过一系列的步骤,用已有的有标签的数据(labelled data),去对剩下的还未标记的数据打标签。从而使得训练数据(training data)更多。具体步骤如下:初始化有标签数据和无标签数据 重复 a) 用有标签的数据去训练一个模型b) 用这个模型来对没有标签的数据做预测c) 只选取最有把握的预测结果来标记数据(unlab...

2020-05-07 15:00:22 2565

原创 Self-training for end-to-end speech recognition

目录ABSTRACT1. INTRODUCTION3. SEMI-SUPERVISED SELF-TRAINING3.1. Filtering3.2. Ensembles4. EXPERIMENTSdata4.2. Experimental Setting4.3. Results4.3.1 Supervised Baseline4.3.2 Evaluating Beam Search4.3.3 C...

2020-05-07 10:48:08 642

原创 SpecAugment

论文地址:https://arxiv.org/pdf/1904.08779.pdfAugmentation Policy我们旨在构建一种直接作用于log mel频谱图的增强策略,以帮助网络学习有用的功能。 出于以下目的的动机:这些功能应对时间方向的变形,频率信息的部分丢失和小部分语音片段具有较强的鲁棒性,因此我们选择了以下变形来制定策略:1、时间warp 是通过tensorflow的spar...

2020-04-29 23:41:18 1357

原创 SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半监督训练

作者分别来自 俄亥俄州立大学,Salesforce, 亚马逊 alexa,还是值得一读目录ABSTRACTINTRODUCTIONSUPERVISED LEARNING FOR ASREnd-to-end ASR with CTCABSTRACT尽管基于深度学习的端到端自动语音识别(ASR)系统大大简化了建模流程,但它们却遭受数据稀疏性的困扰。本文提出了一种用于半监督ASR的端到端系统的自训...

2020-04-29 15:46:39 410

原创 贪心 大纲

https://blog.csdn.net/hestendelin/article/details/105384299

2020-04-13 19:37:29 148

原创 端到端asr系统搭建

验证了一个端到端语音识别系统,目前cer结果还不错。考虑怎么实际使用:1)服务器端: 利用kaldi的流式处理方法(http://www.luyixian.cn/news_show_274565.aspx),会用到gsteamer 和kaldi 以及docker 方便部署2)客户端:需要做做模型的压缩,目前模型参数30M,实现本地部署还是很方便的,下一步可以自己尝试在ios实现本地asr系统。...

2020-04-01 21:15:06 911

原创 nn参数计算

普通RNN:lstm:

2020-03-25 16:37:34 355

原创 pytorch 简单入门

前言:最近一直在用pytorch 训练端到端的语音识别系统(https://github.com/espnet/espnet),目前效果还不错,在相同的数据集上,和kaldi的差距一个点左右,但是想利用transformer-xl 进一步验证效果,必须自己动手改代码了,所以得赶紧学些pytorch,奥利给!!!pytorch 教程网站http://pytorch123.com/,中文看起来快些...

2020-03-24 17:53:00 169

原创 CSDN-markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2020-03-24 16:53:34 79

原创 transformer-XL 介绍

http://pytorch123.com/FifthSection/Translation_S2S_Network/

2020-03-24 15:37:08 178

原创 pytorch transformer 介绍

http://pytorch123.com/FifthSection/Translation_S2S_Network/

2020-03-24 15:36:36 455

原创 pytorch attention 介绍

http://pytorch123.com/FifthSection/Translation_S2S_Network/

2020-03-24 15:35:34 493

原创 pytorch rnn lstm

http://pytorch123.com/FifthSection/Translation_S2S_Network/

2020-03-24 15:34:30 131

原创 pytorch 简单入门

http://pytorch123.com/FifthSection/Translation_S2S_Network/

2020-03-24 15:32:28 136

原创 20190911

ipcs -mps -aux | grep 8895python worker.py -u ws://localhost:8895/worker/ws/speech -c conf/asr_worker.yaml

2019-09-11 16:48:57 89

原创 20190827

质检数据筛选:/home/homework/wangshenjian/daily_zhijian_collect发送:192.168.240.104(test-09机器):disk2/wangshenjian/upload /home/homework/bce-cli-0.8.3/bce bos cp 20190728.res bos://zyb-video/20...

2019-08-27 21:27:45 153

原创 数据读取,去除中文字母数字之外符号,并分词

# encoding=utf-8import jiebaimport optparseimport re,codecsdef main(): parser = optparse.OptionParser() parser.add_option('--kunpeng-txt', type=str, help='') parser.add_option("--ku...

2019-07-25 20:18:13 1168

原创 解码流程

语料位置:133 :/mnt/data3/wangqq/16_208_backup/workspace/wangqq/lm_training/G生成语言模型:arpa2fst --disambig-symbol=#0 --read-symbol-table=$lang/words.txt - data/lang${lang_suffix}_test_bd_tgpr/G.fst构图...

2019-07-25 14:29:11 154

原创 语言模型

ngram语言模型有两个难以逾越的鸿沟,数据稀疏与缺乏长距离语言约束rnn:可以获得长距离信息,但是很难获得风场距离的信息,理由是随着长度的增加,远距离信息通过概率相乘的结果趋向于零kaldi rnnlm 学习向量层:将词汇表嵌入到一个固定维度的实数空间中,有两个作用:降低输入的维度,增加语义信息。softmax层:将循环神经网络的输出转化为一个单词表中每个单词的输出概率。包...

2019-07-10 13:56:08 436

原创 20190702

fst文档:SPEECH RECOGNITIONWITHWEIGHTED FINITE-STATE TRANSDUCERSEfficient WFST-Based One-Pass Decoding With On-The-Fly Hypothesis Rescoring in Extremely Large Vocabulary Continuous Speech Recognition...

2019-07-02 15:36:12 112

原创 0613

mysql查询时间select * from files where fname=date_format(date_sub(curdate(),interval 2 day),'%Y%m%d');mysql> select * from files where date_format(date_sub(curdate(),interval 2 day),'%Y%m%d');+----...

2019-06-13 16:51:35 186

原创 0612

insert overwrite directory "bos://zyb-offline/user/wangzhou/sale_staff"select id, sc_uid, leads_id, course_id, trans_time from homework_zhibo_laxindata_tblsctrans where dt="20190611"select id, s...

2019-06-12 20:28:39 148

原创 table处理

awk -F'\t' '{if($8!="") print $0}' file >file_selectsplit -l 30000 528Conversion_information_table.csv -d -a 3 528Conversion_information_table

2019-05-29 17:27:58 81

原创 kaid mfc特征

计算13维度特征if [ $stage -le 6 ]; then for part in call_center_26s; do steps/make_mfcc.sh --cmd "$train_cmd" --nj 1 data/$part exp/make_mfcc/$part $mfccdir steps/compute_cmvn_stats.sh data/$pa...

2019-05-22 15:22:36 156

原创 WFST 动态解码

WFST:Speech recognition with weighted finite-state transducers静态解码:动态解码:Look-Ahead Composition,On-the-fly RescoringLook-Ahead Composition二者比较:《A comparison of dynamic WFST decoding approa...

2019-05-18 21:40:03 922

原创 on-the-fly 动态解码

1.静态解码:compositiondeterminizationminimization2. 语言模型重评估:文章《电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究》声学模型只能识别语音信号中音素、音节、或者词的相似程度,但不能捕捉到词与词之间的相关性。语言模型则可以利用不同的上下文关系,或者其他语言学信息来预测每一个词可能发生的概率。可以解决声学模型混...

2019-05-18 15:26:37 1388

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除