java cnn_用于音频的卷积神经网络(CNN)

我一直在关注DeepLearning.net上的教程,以学习如何实现从图像中提取特征的卷积神经网络 . 本教程有很好的解释,易于理解和遵循 .

我想扩展相同的CNN,同时从视频(图像音频)中提取多模态特征 .

我知道视频输入只不过是与音频相关的一段时间(例如30 FPS)中显示的一系列图像(像素强度) . 但是,我真的不明白音频是什么,它是如何工作的,或者它是如何被分解为馈入网络的 .

我已经阅读了几篇关于这个主题的论文(多模态特征提取/表示),但没有一篇解释过如何将音频输入到网络中 .

此外,我从我的研究中了解到,多模态表征是我们的大脑真正运作的方式,因为我们没有刻意过滤我们的感官来实现理解 . 这一切都是在我们不知情的情况下同时发生的(联合代表) . 一个简单的例子是,如果我们听到狮子吼声,我们立即构成狮子的心理形象,感受到危险,反之亦然 . 在我们的大脑中发射了多种神经模式,以全面了解狮子的样子,听起来像,感觉,闻起来像是等等 .

上面提到的是我的最终目标,但暂时我为了简单起见而打破了我的问题 .

如果有人能够阐明音频如何被解剖,然后在卷积神经网络中表现出来,我将非常感激 . 我还要感谢您对多模态同步,联合表示以及使用多模态数据训练CNN的正确方法的看法 .

EDIT: 我发现音频可以表示为频谱图 . 它作为音频的通用格式,表示为具有两个几何尺寸的图形,其中水平线表示时间,垂直表示频率 .

641dcfc7-053e-4bb5-81ac-95e722548967.jpg

是否可以对这些光谱图上的图像使用相同的技术?换句话说,我可以简单地使用这些频谱图作为卷积神经网络的输入图像吗?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值