“工业听诊”中多声源事件检测与定位

点击上方蓝色字体,关注我们

众所周知,基于领先的声音事件定位和检测技术,可以研发“声学照相机”和“工业听诊器”等产品,并在电力、水利、轨道交通、汽车制造等行业领域发挥效用,保证工作人员的安全以及节省成本。声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。利用声音定位和检测技术,可以设计工业质检系统实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。

多声源检测与定位系统(sound event detection and localization,SEDL)的目标是输出声音的标签和声音方位信息(仰角和方位角)。

一、数据库

数据库的形成是在不同的室内环境(2019年5个,2020年15个)通过球型Eigenmike麦克风阵列采集真实位置的脉冲响应(impulse responses ,IRs),与真实的声音事件进行卷积,获得某个位置的声音信号。

球型Eigenmike麦克风

当声源位置距离1m时,方位角范围[180° , 180°]每隔10°,仰角范围[40° , 40°]每隔10°,会产生324个方位的IRs;当声源位置距离2m时,方位角范围[180°,180°],每隔10°,仰角范围[20°,20°],每隔10°,会产生180个方位的IRs,由方位角-仰角-距离组成的IRs总共会有504个。利用采集的IRs与合成声音数据库,其中包含400个采样频率为48000Hz的一分钟的声音,为了创造真实的声学环境,在采集的IRs中添加30dB自然噪声。

以DCASE2019 Task3数据库为例,与DCASE2020 Task3格式有所不同

训练及测试文件命名格式为:

split[number]_ir[locationnumber]_ov[number of overlapping sound events]_[recording number per split].wav

评估数据集由100个录音组成,不包含任何位置信息,也不包含以下命名约定中重叠声音事件的数量:

 split[number]_[recordingnumber per split].wav

两年中数据集中声音类别分别为:

数据集链接:

2020年:
https://zenodo.org/record/3870859
2019年:
https://zenodo.org/record/2599196#.Xy-3-DW-uUk
https://zenodo.org/record/3377088

二、输入特征

1. Log-Mel

在语音识别中常用到频域特征梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)特征,基于对人耳听觉研究发现,人耳对不同频率信号敏感度不同,在1000Hz以下,与频率成线性关系;反之,与频率成对数关系。因此,引入Mel频率,Mel频率与实际的频率关系。

提取过程:

2. 广义互相关(GCC-Phat)

由于麦克风阵列中阵元距离声源的间距不等,当声波传递到阵元时,会在其之间产生延时差值,时间差结合阵元结构的几何关系,可以估计出声源的方位信息。

噪声、混响对相同位置同一声源产生广义互相关函数特征的谱峰相似,鲁棒性能较好。利用深度学习或者机器学习的方法,不直接计算其峰值,减少噪声和混响对其产生的干扰。选择其作为声源信号方位的估计特征。

3. 声强矢量(Intensity vector)

瞬时声强矢量:

表示声压,可以用方位信息表示

声强矢量中包含声波能量方位信息,其反方向可以理解为其方位信息。

三、网络结构

模型选择CRNN [1]:

四、网络结构

利用单独的指标对声音事件检测与声音方位估计进行评价。对于声音事件检测的评价标准错误率(Error Rate, ER)和F分数(F-score),对于声音事件检测一般是基于1s的声音片段,当某一声音事件在该时间片段中超过一般时,则认为该时间片段中包含该事件。对应声音事件方位的估计评价标准,声音事件估计坐标为:声音事件参考坐标为。对于整个数据集的方位估计误差对于整个数据集的方位估计误差DOAerror为

其中,

N表示整个数据集方位估计总数。

考虑到估计DOA与参考DOA数量不对等时,提出了召回率(Frame Recall,FR)

通过召回率检测整个网络声音事件与方位检测系统性能。

参考文献:

[1]Cao Y, Iqbal T, Kong Q, et al. Two-stage sound event localization and detection using intensity vector and generalized cross-correlation[J]. Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

[2]Kong Q, Cao Y, Iqbal T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems[J]. arXiv preprint arXiv:1904.03476, 2019.

微信号:yikeAI14539

知乎:李是Lyapunov的李

添加微信号加入一刻AI交流群

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
电子听诊器是一种应用于医疗领域的新型设备,它利用电子技术和数字信号处理技术将人体的心音、肺音等生理信号转化为数字信号,通过高保真音频输出,使医生可以清晰地听到患者的体音。 首先,电子听诊器的设计具有便携性和易用性的特点。现代电子听诊器采用小巧轻便的设计,方便医生携带和使用。它通常由一个听诊头和一个数字处理芯片组成,操作简单,只需医生将听诊头放置在患者的身体部位,即可获取到清晰的听诊信号。 其次,电子听诊器的设计采用先进的数字信号处理技术。通过内置的数字处理芯片,电子听诊器可以对采集到的生理信号进行滤波、放大和频谱分析等处理,使医生可以更准确地判断患者的身体状况。同时,电子听诊器还具有噪声抑制和干扰消除功能,提供高质量的听诊音频,有效提高了诊断的准确性和可靠性。 此外,电子听诊器的设计还考虑了数据的传输和存储。现代电子听诊器常常配备无线传输功能,可以将采集到的听诊数据通过蓝牙或Wi-Fi等方式传输到电脑或移动设备上,方便医生进行远程诊断和数据的备份与存储。 总结来说,电子听诊器的设计综合了便携性、易用性和先进的数字信号处理技术,通过清晰的听诊音频和准确的诊断结果,为医生提供了一种全新的诊断工具,为患者提供了更精准和高效的医疗服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值