文章信息
Blind Monaural Source Separation on Heart and Lung Sounds Based on Periodic-Coded Deep Autoencoder
基于周期编码深度自编码器的心肺音盲单耳声源分离
2020年,来自IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS期刊,Q1,IF=7.021
Abstract
听诊是诊断心血管和呼吸系统疾病的最有效方法。为了达到准确的诊断,设备必须能够识别来自各种临床情况的心肺音。然而,录制的胸音混合了心音和肺音。因此,在预处理阶段有效地分离这两种声音至关重要。
机器学习的最新进展在单声道声源分离方面取得了进展,但大多数众所周知的技术都需要配对混合声音和单个纯声音进行模型训练。由于制备纯心肺音很困难,因此必须考虑特殊设计才能得出有效的心肺声音分离技术。
在这项研究中,我们提出了一种新的周期性编码深度自动编码器(PC-DAE)方法,通过假设心率和呼吸频率之间的不同周期性,以无监督的方式分离混合心肺音。PC-DAE受益于基于深度学习的模型,通过提取代表性特征并考虑心肺音的周期性来进行分离。
我们在两个数据集上评估了PC-DAE。第一个包括来自学生听诊模型(SAM)的声音,第二个是通过在现实世界条件下录制胸部声音来准备的。实验结果表明,PC-DAE在标准化评估指标方面优于多个知名分离工作。此外,波形和频谱图证明了PC-DAE与现有方法相比的有效性。还证实,通过使用所提出的PC-DAE作为预处理阶段,可以显着提高心音识别精度。实验结果证实了PC-DAE的有效性及其在临床应用中的潜力。
Introduction
现有方法
研究心肺音产生的物理模型和分类机制
- 信号处理方法(如归一化平均香农能量),基于高频的方法,基于机器学习的模型(神经网络分类器、决策树)
- 采用S1-S2和S2-S1区间的信息,以进一步提高分类精度
- 高斯混合模型、NN分类器、支持向量机、各种类型的声学特征(功率谱密度值,希尔伯特-黄变换)已被用于进行肺部声音识别
- 测量的信号通常是心肺声音的混合,纯心/肺声信号通常无法获得,有效地分离心肺声音较困难
心肺音频谱范围
- 正常心音(第一(S1)和第二(S2)心音)的频率范围主要是20-150赫兹
- 一些高频杂音可能达到100-600赫兹,甚至达到1000赫兹
- 正常肺音的频率范围为100-1000赫兹(气管音范围为850赫兹至1000赫兹)
- 异常肺音作为喘息的不定声音跨越400-1600赫兹的宽频率范围
- 湿啰音和啰音的范围为100-500赫兹
心肺音分离技术方法——传统滤波方法(问题:频段重叠)
- 自适应过滤
- 经验模态分解
- 离散小波变换
- 将信号转换为时频域(STFT),与连续小波变换(CWT)结合,通过带通滤波器滤除心音分量
盲源分离算法
独立成分分析(ICA)及其扩展,不需要对源的先验知识;
至少需要两个传感器;
心脏音源之间的独立性假设也在某种程度上是乐观的。
非负矩阵分解(NMF)
单通道;
处理重叠频段能力好。
深度学习
直接将混合源分解为目标源,效果好于NMF;
受数据集影响大,很难获取纯净心/肺音信号。
本文工作
周期性编码深度自动编码器(PC-DAE),基于无监督学习,分离心肺音。
首先采用DAE模型提取混合声音的高度表现力表示;
接下来在潜在表示上应用调制频率分析(MFA);
根据神经元在调制域中的属性对神经元进行分组,然后对混合声音进行分离;
优点:与典型的基于学习的方法相比,不需要标记的训练数据(即成对的混合声音和单个纯声音),它受益于周期性结构,可提供比传统方法优越的分离性能。
第二节:回顾NMF/DAE算法。
第三节:介绍PC-DAE。
第四节:实验设计和结果,其中设计了两个数据集并用于测试提出的PC-DAE模型。第一个是来自学生听诊模型(SAM)数据库的心声图信号,第二个是在真实条件下制备的。实验结果证实了PC-DAE分离混合心肺音的有效性,在三个标准化评估指标、基于分离波形和频谱图的定性比较以及心音识别精度方面优于直接聚类NMF(DC-NMF)、PC-NMF和深度聚类(DC)等相关工作。
Related Works
非负矩阵分解(NMF)
将矩阵V分解为字典矩阵W和编码矩阵H,W和H的乘积近似为V,所有矩阵的项均为非负数。
基于NMF的声源分离可分为有监督(有独立声源声音)和无监督(无独立声源声音)。
有监督NMF
预训练的固定谱矩阵
W S = [ W 1 S … W M S ] W^S=[W^S_1\dots W_M^S] WS=[W1S…WMS]
其中M是声源的数量,矩阵 W S W^S WS由每个声源的特征组成,被预先提供。
包含多种声音的记录被NMF分解为 W S W^S WS和 H T H^T HT,把 H T H^T HT分解成M块
H T = [ H 1 T H ˙ M T ] H^T=[H_1^T\dot H_M^T] HT=[H1TH˙MT]
其中M是声源的数量,通过将 W i S W_i^S WiS和 H i T H_i^T HiT相乘,即可得到独立声源。
无监督NMF
由于独立声源声音不可获得,必须应用一些统计假设,一种直观的方法是将H中的向量聚类到几个不同的组,特定的声音可以通过H中的一组向量与W一起重建。
使用另一个概念设计了PC-NMF,即将不同源声音的周期性属性纳入分离框架。PC-NMF考虑编码矩阵 H T H^T HT作为时间向量,并利用周期性差异的性质来分离生物声音。由于心音和肺音在周期性特征上不同(心率和呼吸频率非常不同),因此可以通过PC-NMF模型很好地分离混合心肺音,如第4节所述。
深度自动编码器(DAE)
DAE©完全卷积体系结构如下图,由编码器E和解码器D组成。
编码器层数 K E K_E KE,解码器层数 K D K_D KD,总层数 K A L L = L D + K E K_{ALL}=L_D+K_E KALL=LD+KE。
编码器将输入 x x x编码到中间潜在空间 l ( K E ) = E ( x ) l^{(K_E)}=E(x) l(KE)=E(x),解码器通过 y = D ( l ( K E ) ) y=D(l^{(K_E)}) y=D(l(KE))重构输出,重构的输出 y y y近似等于 x x x。使用均方误差MSE测量x和y间的差值,最小化MSE是训练DAE模型的目标。
通过使用全连接层和全卷积层,可以分别构建DAE(F)和DAE©,下图为两种类型的DAE的第k层和第k+1层的连接,从左到右分别为全连接层、卷积、解卷积。
DAE(F) 通过全连接单元形成编码器和解码器,对于编码器:
对于解码器, M M M代表潜在空间中神经元的总数:
在 DAE(C) 中,编码器由执行卷积函数的卷积单元组成, l j ( k ) ∈ R M ∗ N l_j^{(k)}∈R^{M*N} lj(k)∈RM∗N是第 k k k层中的第 j j j个特征图, I I I是通道总数:
每个编码层有 J J J个滤波器: { W 1 , … . W J } , W j ∈ R L ∗ 1 \{W_1,\dots.W_J\},W_j∈R^{L*1} { W1,….WJ},Wj∈RL∗1, L L L是卷积核大小, W j i = ( w 1 , … , w i ) W_{ji}=(w_1,\dots,w_i) Wji=(w