声音场景分类问题探讨（二）

最新推荐文章于 2024-04-26 15:43:01 发布

小李飞刀李寻欢

最新推荐文章于 2024-04-26 15:43:01 发布

阅读量3.1k

点赞数 3

分类专栏： speechdnn 文章标签： VGG features

本文链接：https://blog.csdn.net/SPESEG/article/details/104069575

版权

speechdnn 专栏收录该内容

49 篇文章 3 订阅

订阅专栏

接上一篇：https://blog.csdn.net/SPESEG/article/details/104006642

其实有时候，不，经常是我还没有完全明白样例/demo中的流程，就开始了套用，咔咔代入一通，也有很多想当然的想法，都是错误的。

如果完全如所给样例那么简单的话，整个特征可以直接取avg，特征依旧很明显，如下：

x轴是128D特征，y是时间维度frame，由hop_size确定长度

下图即是取avg后的图

下面比较下同一类别的avg features 是否相似？

整体来看确有相似之处，但令人生疑，为何如此相像？？？就怕不同类别也是这么相似，那就没法玩了。

提取Lau和Dan类别特征，先看tsne图，然后做下query看看效果如何。

PCA后30D，困惑度50

有一定的区分度，但仍有上一篇的可能：因为并没有的分类界限。

困惑度为100时

又加入Dan的一些类别mnw，伪标签为2，PCA后30D，0.86，困惑度100

0 和2本就是一类，1是Lau类别，偏安一隅，也算有点区别

由于颜色问题，将Lau设为3，其他全是Dan类别

大部分的Lau都位于红色框内，再增加点Lau的数据，如下

下面增加点我司的Lau，1000个，如图下，标记为4，【注意：以上只有Lau用的抖音的，Dan是我司的】

假若将3,4合为3，如下

将抖音的Lau数据去掉，如下

如果不用PCA结果如下：差不多一样

我觉得也可试试增加点时长，或者直接用整个时长【不包括抖音的最后附加的声音，也不要刚开始的声音2秒】

个人觉得Lau的时长多了应该与Dan的不同，特征更明显，难道不是吗？拭目以待

遇到一个问题，可能是时长的问题，cudnn出错如下：我怀疑是时长过长了，或者说hop_size有点小，我觉得0.1差不多啊

2020-01-22 19:01:05.967046: W tensorflow/core/kernels/gpu_utils.cc:48] Failed to allocate memory for convolution redzone checking; skipping this check. This is benign and only means that we won't check cudnn for out-of-bounds reads and writes. This message will only be printed once.


2020-01-22 19:02:34.483464: F tensorflow/stream_executor/cuda/cuda_dnn.cc:516] Check failed: cudnnSetTensorNdDescriptor(handle_.get(), elem_type, nd, dims.data(), strides.data()) == CUDNN_STATUS_SUCCESS (9 vs. 0)batch_descriptor: {count: 8231 feature_map_count: 64 spatial: 96 64  value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
Aborted (core dumped)

试试hop_size=0.2，并将时长大于100的置为100.

还在处理中。。。

来了结果，如下，没做PCA，感觉差不多同上

PCA后30D，0.89，困惑度100，如下：就是调整个方向？？？

【遇到一个问题，不知道怎么指定某个GPU，指定后也不好使，因为我想运行两个或多个脚本，各用一个GPU，之前有写过一篇，但没有深究。这里再补充下】

今天提前回去收拾东西。下班

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像视频深度-学习群

小李飞刀李寻欢

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
声音场景分类问题探讨（二）

接上一篇：https://blog.csdn.net/SPESEG/article/details/104006642其实有时候，不，经常是我还没有完全明白样例/demo中的流程，就开始了套用，咔咔代入一通，也有很多想当然的想法，都是错误的。如果完全如所给样例那么简单的话，整个特征可以直接取avg，特征依旧很明显，如下：x轴是128D特征，y是时间维度frame，由hop_size...
复制链接

扫一扫