人工智能 (AI) 应用：一个异常肺呼吸声辅助诊断系统

robinfang2019

已于 2024-07-17 23:04:28 修改

阅读量593

点赞数 22

文章标签：人工智能语言模型学习机器学习自然语言处理

于 2024-07-17 23:03:29 首次发布

本文链接：https://blog.csdn.net/robinfang2019/article/details/140507908

版权

关键词：深度学习、肺癌、多标签、轻量级模型设计、异常肺音、音频分类

近年来，流感对人类的危害不断增加，COVID-19疾病的迅速传播加剧了这一问题，导致大多数患者因呼吸系统异常而死亡。在这次流行病爆发之前，呼吸系统疾病已经成为社会主要死亡原因之一，包括“五大”呼吸系统疾病：哮喘、慢性阻塞性肺病（COPD）、急性下呼吸道感染、肺癌和结核病。COPD在全球致命疾病中排名第三，每年夺去320万人的生命，占所有慢性呼吸系统疾病死亡的81.7%。

随着对肺部疾病的关注度日益增加，这些疾病的早期诊断也成为关注的焦点。通过听诊监测呼吸音是评估患者呼吸健康的传统方法，医生通常使用听诊器作为诊断肺部疾病和异常的临床工具。听诊器的主要目的是在给定时间框架内识别呼吸音的变化，如喘鸣、啰音和喘息。

啰音是短暂、爆炸性、非音乐性的声音，通常出现在有实质性肺部疾病的患者中，如肺炎、间质性肺纤维化（PF）和肺水肿。
喘鸣是与气道疾病如哮喘和慢性阻塞性肺病（COPD）相关的异常呼吸音，其特征是高音调，持续时间超过80毫秒。喘鸣被描述为一种连续的哨声和嘶嘶声，叠加在正常呼吸上。喘鸣是由气道狭窄引起的，导致气流受。
喘息是一种类似于喘鸣的连续气道声音，其特征是嘶嘶声和音乐般的音质。这种声音主要在吸气时听到，但有时也可能出现于呼气或两个阶段。与喘鸣不同，喘息是由喉部或支气管树的气流湍流引起的，通常与上呼吸道阻塞有关。

这些不同类型的呼吸音在诊断各种肺和气道疾病中起着至关重要的作用。使用听诊器听肺音是一种传统技术，也是专家对呼吸系统疾病的初步评估中最受欢迎的诊断方法。听诊的优点包括是一种非侵入性诊断方法和有效的辅助诊断工具，有助于诊断和区分各种呼吸系统疾病。然而，这种诊断方法也有局限性，如下所述：

主观性强：不同医生对呼吸音的解读存在差异，这取决于他们的经验、知识水平和听力能力。即使是经验丰富的医生，也可能对某些呼吸音产生不同的解读。这种主观性会导致诊断结果的不一致性，影响治疗方案的确定。
易混淆：不同异常呼吸音之间存在相似性，例如：哮喘的喘鸣音和声带功能障碍的喘鸣音: 这两种声音都表现为连续、高音调的哨声，波形呈正弦波，在时域上具有周期性。肺炎的爆裂音和肺纤维化的爆裂音: 这两种声音都表现为短暂、爆炸性、非音乐性的声音。这种相似性容易导致医生在初步诊断阶段产生混淆，难以准确区分不同的呼吸音，从而影响诊断结果和治疗方案的制定。
效率低：使用听诊器诊断需要医生花费大量时间和精力，尤其对于经验不足的医生来说，需要更长的时间才能准确识别和区分不同的呼吸音。在疫情或紧急情况下，需要快速评估大量患者的呼吸状况，传统方法难以满足这种需求。
受环境因素影响：周围环境噪音、患者的体位和呼吸状态等因素都会影响医生对呼吸音的判断。

1 方法

1.1 相关技术

1.1.1 可学习频谱前端模块

传统方法使用人工设计的特征变换，例如短时傅里叶变换（STFT）、梅尔频率倒谱系数（MFCC）和常数Q变换（CQT）等。这些变换存在固定的特征偏差，无法保证在所有任务中都获得最佳性能。

可学习频谱前端模块通过学习滤波器来提取特征，可以更好地适应不同的任务，并避免固定的特征偏差。

常见的可学习频谱前端模块包括：

基于Mel滤波器组的滤波器学习: 将滤波器初始化在Mel尺度上，并与其他网络组件一起学习。
基于原始波形的滤波器学习: 直接从原始波形中学习卷积滤波器，例如SincNET和EfficientLeaf。
基于Gabor滤波器的滤波器学习: 使用Gabor滤波器，结合正弦信号和高斯核，实现时间-频率局部化。

1.1.2 深度学习架构

随着深度学习技术的发展，许多深度学习模型被应用于呼吸音识别任务，并取得了较好的性能。常见的深度学习架构包括：

卷积神经网络（CNN）: 用于提取时频特征，例如ResNet、CNN6和MobileNetV2等。
循环神经网络（RNN）: 用于处理序列数据，例如LSTM和GRU等。
注意力机制: 用于捕捉时频特征之间的关系，例如Transformer和CSRA等。

预训练模型的使用可以弥补训练样本不足的问题，并提高模型性能。轻量级模型的设计可以降低模型复杂度，方便部署到便携式设备上。

1.2 数据集

本研究使用了在国际生物医学健康信息学会议（ICBHI 2017）上组织好的呼吸音数据库。ICBHI数据集包含6,898个呼吸周期，总计约5.5小时，并正式分为训练集（60%）和测试集（40%）。值得注意的是，在训练集和测试集的分割中，两个数据集之间的患者数据不重叠。每个呼吸周期被标记为以下四类之一：正常、啰音、喘鸣或啰音&喘鸣。训练集包含来自79名患者的539个记录，包括1,215个啰音周期、501个喘鸣周期、363个啰音&喘鸣周期和2,063个正常呼吸周期。类似地，测试集包括来自49名患者的381个记录，总计649个啰音周期、385个喘鸣周期、143个啰音&喘鸣周期和1,579个正常呼吸周期。

链接：

https://github.com/Maheswara1/ICBHI-Respiratory-Challenge-2017-dataset.