guocehnxi-CSDN博客

1.早期的kws系统神经网络结构发展：1）标准的前馈全连接网络DNN+RELU非线性函数，后接softmax获取k个关键词的输出概率值，用于进行后验概率预处理2）前期DNN模型的主要缺点是模型很难充分得建模学习输入语音特征上的局部时域与谱之间的相关性。卷积神经网络探索输入特征空间的时域与频谱域之间的相关性，采用2-D卷积+batchnormlization+RELU+（max/average-pooling降维）+（low-rank低维全连接减少参数量并加速训练）dense【在推理阶段batch-nor

2022-02-14 18:11:16 1360

原创基于pytorch搭建模型结构初学者

1.申请设备资源分两种：cpu和GPU若需要申请gpu资源，查询机器上是否有可用资源，若有则返回设备号2.搭建模型结构torch.manual_seed(0)设定初始化的种子编号，种子编号一致的情况下，可以实现每次产生一致的随机初始化矩阵，方便后期复现实验结果model = get_model(config[‘model’]) 搭建模型，根据指定的模型超参构建模型网络train_dataloader = get_dataloader(config, ‘train’) 加载训练数据设定优化机

2022-02-10 16:16:33 1407

原创 pytorch支持单机多卡和多机多卡

1.单机多卡第一种方法是nn.DataParallel(model, device_ids=devices, output_device=devices[0])伪代码devices = cudeviceutil.auto_alloc_device()nn.DataParallel(model, device_ids=devices, output_device=devices[0])将模型在devices中的所有GPU卡上进行模型训练，并在ouput_device上进行模型平均操作。本方法的优缺

2022-01-27 20:00:59 2151

原创 kaldi-tdnn模型训练策略-pytorch实现

relu：RectifiedLinearComponent self-repair-scale=1e-05affine：NaturalGradientAffineComponent max-change=0.75norm：NormalizeComponent target-rms=1.0 add-log-stddev=false隐层的输出规整为均方根为1.0：y^t y = D * target_rms^2y_i = scale * x_iscale = 1.0 / sqrt(x^t *

2022-01-20 19:49:14 2908

原创 conformer笔记

conformer创新点：将transformer中self-attention学习全局上下文信息的能力与CNN学习局部相对位置信息的能力结合使模型性能达到更优模型结构如下：模型结构解析：首先对输入的log-mel域的谱特征进行谱增强（时间动态、时间轴覆盖、频率轴覆盖）三种不同的谱增强方法。第二层是降采样CNN层，降为原来的1/4第三层是线性层第四层dropout：为了训练更深的网络结构，进行正则化第五层是conformer-block：对conformer-block层展开：充分借鉴

2021-11-17 15:49:18 1290

原创 grapheme和phoneme的区别

转存一篇介绍grapheme和phoneme区别比较好的文章转：https://www.differencebetween.com/difference-between-phoneme-and-vs-grapheme/

2021-05-10 11:09:25 1162

原创 kaldi决策树聚类

1.acc-tree-stats AccumulateTreeStats()【kaldi/src/hmm/tree-accu.cc】结合对齐结果，为每一个pdf-id统计其在当前帧特征的两个统计量（特征每一维加权求和、加权平方和）2.cluster-phones AutomaticallyObtainQuestions（）【】聚类有两种算法：一是问题集聚类法；二是k-means聚类法【需要输入目标种类数】，kaldi中默认的是使用的问题集聚类方法...

2021-04-19 16:35:01 326

原创将xlsx转换为csv的神器

1.首先安装ssconvert2.ssconvert -S 1.xlsx 1.csv #如果xlsx里面有多个sheet则会生成 1.csv.id多个csv文件

2021-03-24 12:39:08 955

原创 Wake Word Detection with Alignment-Free Lattice-Free MMI

本文中引入了一种不需要对齐（Alignment-free）、不需要词图的（Lattice-Free MMI）鉴别性准则训练的模型相比Lattice-free MMI准则需要额外修改一下发音字典、HMM拓扑结构1.HMM拓扑结构（KW和freetext）用的是5个状态；silence用的是2个状态，但是保持（Lattice-free MMI）的结构self-loop-pdf和forward-pdf对应两个不同的PDF-id，因此神经网络共82+21=18个pdf2.分子图与分母图分子图和chain的不

2020-07-29 20:48:10 709 1

原创 Lattice-free MMI

文章：https://www.danielpovey.com/files/2016_interspeech_mmi.pdfchain model：是lattice free 的MMI鉴别性训练。首先简单介绍一下，这个模型和我们常用模型的区别：chain模型文件中不含先验概率（prior）；在解码的过程中不使用声学得分系数（acoustic-scale）chain模型在对目标函数求导时，需要计算两个后验概率值组合（分子图和分母图的概率值）；分子图是一条特定语料的标签路径；分母图是所有的可能的路径（分母图

2020-07-22 22:08:07 744

原创 MobileNetV2浅析

文章：MobileNetV2: Inverted Residuals and Linear Bottlenecks

2019-10-25 14:56:21 367

原创 python 初学

1.python调试,导入pdb，设置断点位置，就可以和gdb一样进行调试了import pdbdef create_variable(name, shape, initializer,dtype=tf.float32, trainable=True):pdb.set_trace()return tf.get_variable(name, shape=shape, dtype=dtype...

2019-10-25 14:56:01 147

原创 A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting浅析

文章：A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting中心思想：通过共享自注意力机制的权重，在维持性能不变的情况下，减少模型参数本文的创新点：一是，用前馈神经网络代替在注意力机制中常用的回归神经网络，加速模型计算；二是，自注意力机制中的三个矩阵进行...

2019-10-17 21:37:54 859

原创 MobileNet浅析

论文链接：https://arxiv.org/pdf/1704.04861.pdfMobileNet是一种通过逐层分离加深卷积深度减少深度神经网络参数的流式结构，文章中引入了两个全局超参有效地平衡了准确率和延时。MobileNet将一个标准卷积层分解成两个卷积层(深度卷积和逐点卷积)，分别代表标准卷积的滤波器过滤和结合两个步骤。网络结构变化前后如下图所示举例：input layer输入为...

2019-10-14 18:49:00 357

转载语音识别-Batch Normalization浅析

文章：http://proceedings.mlr.press/v37/ioffe15.pdf中心思想：通过控制参数的变化范围加速模型的训练背景：由于神经网络的每层参数在训练过程中都是在随时变化的，这就要求模型在训练过程中需要一个很好的参数初始化、较小的学习率来调整模型的参数，并且模型训练过程中需要保持原有的非线性特性，这就使得深度神经网络的训练很慢、很困难，称这种现象为internal co...

2019-10-11 21:08:39 345

原创 tdnnf浅解

１．限制参数矩阵是半正交矩阵1.1 Basic case半正交矩阵Ｍ, P=MM(转置)1.2 Scaled case设置scale=a;　矩阵Ｍ是半正交矩阵按比例缩小版目的：是为了辅助floating case更新方式：一是，根据公式进行更新α =pow(tr (PP(转置))/tr§,1/2)；二是，直接利用P的对角元素的平均值的平方根，这种方式可以很简单地在损失函数后加一项，但会...

2019-09-23 17:51:39 3226

原创 linux mint打印机配置

１．mint打印机安装好，用cups命令使用２．打印机设置不在控制中心，在浏览器中输入localhost:631进入打印机添加页面

2019-09-23 15:20:32 1132

原创 fstdraw fstprint fstinfo

fst两个基本命令fstprint和fstdraw是可视化的两个基本命令fstprint用于打印fst，可以将二进制的fst以文件形式打印出来。Fstprint的基本用法如下fstprint [–isymbols=xxxx --osymbols=xxxx ] FST参数—isymbols和—osymbols分别表示输入符号表和输出符号表，这两个参数可以省略。fstdraw用于画fst...

2019-07-22 10:46:05 1244

原创 C++ 父类子类构造函数

1.创建子类对象时，先调用父类构造函数（初始化父类的成员变量），再调用子类的构造函数2.父类的构造函数不同，子类调用方式不同，分为以下几种情况：a.父类未声明构造函数（子类可以不创建构造函数，使用编译器默认生成的无参构造函数；子类也可创建构造函数，创建时没有任何形式限制，父类使用编译器自动生成的默认的构造函数）b.父类只声明了不带参数的构造函数（子类可显示调用父类构造函数也可不显示调用，因为...

2019-06-04 10:30:58 2779

原创语音未做高通滤波导致波形异常

1.异常波形2.cool edit做高通滤波设置频率为50hz,滤波后波形恢复正常3.cool edit 滤波步骤

2019-04-25 16:16:29 346

原创 zip分卷压缩

zip分卷压缩首先将其压缩成一个大的zip压缩包之后再分卷zip -r a.zip dir2.将压缩完的大压缩包zip分卷zip -s (1G|500M) a.zip --out b.zip命令执行完会在文件夹下生成b.zip、b.z01、b.z02…等在windows环境下解压时只需要将b.zip解压缩就可以将其他卷一起解析...

2019-04-09 11:39:14 21441

原创 linux解压缩

tar-c: 建立压缩档案-x：解压-t：查看内容-r：向压缩归档文件末尾追加文件-u：更新原压缩包中的文件这五个是独立的命令，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。-z：有gzip属性的-j：有bz2属性的-Z：有compress属性的-v：显示所有过程-O：将文件解开到标准输出下面的参数-f是必须的...

2019-04-04 18:41:44 752

原创 sox和ffmpeg 处理语音工具

1.截取长语音中的片段sox input.wav output.wav trim start-time(s) duration(s)例：将a.wav 截取0.1s至1.3s语音片段保存下来sox a.wav b.wav trim 0.1 1.22.将多个短语音拼接成长语音sox a.wav b.wav c.wav … -t wav -e signed-integer -b 16 -r 1...

2019-03-22 14:56:24 2578

原创 linux常用命令awk,sort

linux常用命令awk1.将文本中第2列数据求和awk ‘{sum+=$2} END {print $sum}’ a.txt样例：a.txta.txt执行 awk命令在这里插入图片描述

2019-03-22 14:54:54 2309 1

chenxi910911的博客

原创 torch模型转onnx后参数对比

原创 warmup lr 策略-一种学习率预热的方法

原创基于深度神经网络实现的kws系统