语音处理
文章平均质量分 91
雾里闹
这个作者很懒,什么都没留下…
展开
-
GhostNet学习
在这篇论文中提出了一个ghost模块,可以通过廉价操作来生成更多的特征图。作者认为,在现有的cnn模型中,会包含丰富的冗余信息,即一些特征图可以由其它特征图廉价操作(线性变换)得到。首先论文中介绍了Ghost Module,通过普通卷积得到m个通道的特征,通过对这m个通道做可分离的线性变换,我们可以得到。在本文中有两种ghost block结构,一种为步长为1,一种为步长为2.两种block的结构分别如下如所示。其中在步长等于2时,shortcut通过一个步长为2的深度可分离卷积进行降维计算。原创 2023-04-16 22:05:37 · 80 阅读 · 0 评论 -
pydub使用记录
我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。实际中,人发出的声音信号为模拟信号,想要在实际中处理必须为数字信号,即采用采样、量化、编码的处理方案。原创 2023-04-16 21:55:46 · 513 阅读 · 0 评论 -
DS-ResNet
此处通过使用深度可分离卷积有效降低模型的参数量,在模型中有两处使用了深度可分离卷积,一处是类似resnet的残差模块DS-conv block,此处为两层深度可分离卷积堆叠而成。可知,DS-resnet中使用的恒等映射为ReLU before addition,模型准确率弱于full pre-activation,所以可以将映射方式改为full pre-activation。在block中的point-conv的输出通道全部为64,depth-conv的卷积核为。此处的depth-Conv卷积核为。原创 2023-04-16 22:01:34 · 134 阅读 · 0 评论