Audio
文章平均质量分 61
jinnsjj
这个作者很懒,什么都没留下…
展开
-
用 Keras 建立CNN对 UrbanSound 进行音频分类
Urban Sound Classifier using CNN v2第一个CNN的分类器效果惨烈,有许多细节都没有注意到,感觉修改也令人心烦,从头开始。老实说我也不知道这次能不能成功,边做边看吧。上次踩过的坑和经验之前把频谱当作训练数据输入,但频谱里的数值都是负数,后来换为了绝对值。但这样其实也不行,应该要进行normalization。把是把值的范围限制在[-1,1]还是[0...原创 2018-07-08 18:40:56 · 7691 阅读 · 18 评论 -
NMF非负矩阵分解初探
NMF非负矩阵分解初探NMF非负矩阵分解初探简介NMF信号分解最优化问题NMF简介数据可以表示为一个矩阵 VVV,列 vnvnv_n 是采样点而行代表特征features。我们想把这个矩阵VVV因式分解为两个未知的矩阵 WWW 和 HHHV≈V^≡WHV≈V^≡WH V \approx \hat{V} \equiv WH这里面 WWW 是一个经常性...原创 2018-07-04 17:48:30 · 1109 阅读 · 0 评论 -
语音情感识别探讨
El Ayadi M, Kamel M S, Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572-587.简介语音识别的发展可以说是非常成熟,但距离我们的目...原创 2018-09-05 15:43:29 · 9696 阅读 · 0 评论 -
librosa.load() 读取音频的采样率处理
利用python中的 librosa.load() 我们可以轻松的读取音频文件,但对于不同采样率的音频文件,使用这一函数有一些细节还需注意。如果 sr 缺省,librosa会默认以22050的采样率读取音频文件,高于该采样率的音频文件会被下采样,低于该采样率的文件会被上采样。如果希望以原始采样率读取音频文件,sr 应当设为 None。具体做法为 y, sr = librosa(filename...原创 2018-10-18 12:45:36 · 22234 阅读 · 2 评论 -
音频重采样 python+librosa
python中的librosa库让我们可以非常方便的对音频文件进行重采样。目标是一个48kHz的音频,利用librosa库中中的resample将这段音频下采样到8kHz。import librosa# to install librosa package# > conda install -c conda-forge librosa filename = 'ClapSound....原创 2018-10-18 12:47:13 · 11336 阅读 · 0 评论 -
impulse response 使用的踩坑 —— cconv
在 impulse response 的使用中遇到了小小的问题,具体如图,第一行是原始信号,第二行是响应的信号,在通过将原始信号和相应信号分别转换到频域求得 transfer function 后,ifft 得到 impulse response。第三行是原始信号和 ir 进行卷积得到的结果,可以看到在信号最开始的阶段,有一个意料外的响应。:这一段的代码如下:% src: 原始信号% r...原创 2018-10-16 16:07:23 · 5333 阅读 · 1 评论