声音场景分类问题探讨(二)

上一篇https://blog.csdn.net/SPESEG/article/details/104006642

其实有时候,不,经常是我还没有完全明白样例/demo中的流程,就开始了套用,咔咔代入一通,也有很多想当然的想法,都是错误的。

如果完全如所给样例那么简单的话,整个特征可以直接取avg,特征依旧很明显,如下:

x轴是128D特征,y是时间维度frame,由hop_size确定长度

 下图即是取avg后的图

下面比较下同一类别的avg features 是否相似?

整体来看确有相似之处,但令人生疑,为何如此相像???就怕不同类别也是这么相似,那就没法玩了。

提取Lau和Dan类别特征,先看tsne图,然后做下query看看效果如何。

PCA后30D,困惑度50

有一定的区分度,但仍有上一篇的可能:因为并没有的分类界限。

困惑度为100时

又加入Dan的一些类别mnw,伪标签为2,PCA后30D,0.86,困惑度100

0 和2本就是一类,1是Lau类别,偏安一隅,也算有点区别

由于颜色问题,将Lau设为3,其他全是Dan类别

大部分的Lau都位于红色框内,再增加点Lau的数据,如下

下面增加点我司的Lau,1000个,如图下,标记为4,【注意:以上只有Lau用的抖音的,Dan是我司的】

假若将3,4合为3,如下

将抖音的Lau数据去掉,如下

如果不用PCA结果如下:差不多一样

我觉得也可试试增加点时长,或者直接用整个时长【不包括抖音的最后附加的声音,也不要刚开始的声音2秒】

个人觉得Lau的时长多了应该与Dan的不同,特征更明显,难道不是吗?拭目以待

遇到一个问题,可能是时长的问题,cudnn出错如下:我怀疑是时长过长了,或者说hop_size有点小,我觉得0.1差不多啊

2020-01-22 19:01:05.967046: W tensorflow/core/kernels/gpu_utils.cc:48] Failed to allocate memory for convolution redzone checking; skipping this check. This is benign and only means that we won't check cudnn for out-of-bounds reads and writes. This message will only be printed once.


2020-01-22 19:02:34.483464: F tensorflow/stream_executor/cuda/cuda_dnn.cc:516] Check failed: cudnnSetTensorNdDescriptor(handle_.get(), elem_type, nd, dims.data(), strides.data()) == CUDNN_STATUS_SUCCESS (9 vs. 0)batch_descriptor: {count: 8231 feature_map_count: 64 spatial: 96 64  value_min: 0.000000 value_max: 0.000000 layout: BatchDepthYX}
Aborted (core dumped)

试试hop_size=0.2,并将时长大于100的置为100.

还在处理中。。。

来了结果,如下,没做PCA,感觉差不多同上

PCA后30D,0.89,困惑度100,如下:就是调整个方向???

 

【遇到一个问题,不知道怎么指定某个GPU,指定后也不好使,因为我想运行两个或多个脚本,各用一个GPU,之前有写过一篇,但没有深究。这里再补充下】

 

今天提前回去收拾东西。下班

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
图像场景分类是计算机视觉领域的一个重要方向,国外的研究现状也非常活跃,以下是一些国外研究现状的概述: 1. 基于深度学习的图像场景分类方法:深度学习是图像场景分类领域最为流行的方法之一,包括使用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习技术。其中,ResNet、Inception、VGG等网络结构在图像场景分类方面表现出色。 2. 基于特征提取的图像场景分类方法:传统的图像分类方法中,特征提取一直是一个重要的研究方向。目前,主流的特征提取方法包括SIFT、SURF、HOG等算法,这些方法在一些场景下依然具有较好的性能。 3. 基于半监督学习的图像场景分类方法:半监督学习是一种在标记数据较少的情况下提高分类性能的方法。在图像场景分类领域,半监督学习也得到了广泛的应用。 4. 基于多模态数据的图像场景分类方法:类似国内研究现状中提到的,国外也有许多研究者在将多模态数据与图像数据结合起来进行场景分类方面进行了探索。其中,使用文本和音频数据进行场景分类的方法得到了广泛的关注。 总之,图像场景分类在国外也得到了广泛的应用和研究。不同的方法各有优缺点,研究者们会根据具体场景选择最适合的方法。同时,随着计算机视觉领域的不断发展,图像场景分类的研究也将继续前进。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值