声纹识别
文章平均质量分 91
robinfang2019
一名科技从业者和爱好者,我热衷于探索人工智能技术在各行各业中的应用,特别是医学领域和预测性维护领域。
展开
-
预测性维护:一种用于机器异常声音检测(ASD)的主动学习(AL)框架
本文聚焦于机器状态监控领域的基于流的AL方法,因其相较于基于池的AL方法具有更优的响应速度。原创 2024-08-16 10:55:54 · 1100 阅读 · 0 评论 -
利用深度学习模型进行语音障碍自动评估
本研究训练和比较了两种Audio Spectrogram Transformer (AST) 配置,用于语音障碍检测,并使用注意力回放方法生成了模型的相关图。通过分析相关图,发现模型无法完全识别有机和无机语音障碍之间的差异,并且模型对音素“/ɔ/”和片段“/e/ /s/ /i/ /n/”给予更高的分数。原创 2024-07-02 22:13:49 · 1225 阅读 · 0 评论 -
SonicSense:声学振动丰富机器人的物体感知能力
SonicSense,一套全面的硬件和软件设计,通过手持式声学振动传感技术,实现了丰富的机器人物体感知能力。SonicSense能够区分83种真实世界对象的容器库存状态,预测异质材料,重建3D形状,并从多样的物体中重新识别对象。系统采用了一种简单但有效的启发式探索策略与对象进行交互,以及端到端基于学习的算法,融合振动信号以推断物体属性。原创 2024-06-30 11:03:55 · 1243 阅读 · 0 评论 -
WavRx:新型语音健康诊断模型
近年来,语音作为一种有前景的疾病诊断和远程健康监测手段已经出现。语音健康诊断通常基于这样一个假设:即影响发音和/或呼吸系统的疾病会导致人类语音信号中出现非典型模式。这种异常可能由多种原因造成,例如神经肌肉控制受损或声道和肺部发炎。虽然人类有时可能察觉不到语音信号中的影响,但机器学习(ML)模型可以被训练来检测某些与疾病相关的声学生物标记。多年来,已经有大量研究探索了语音处理在诊断中的使用,包括但不限于COVID-19、言语障碍、帕金森病和阿尔茨海默病,以及许多其他一般性呼吸症状。原创 2024-06-28 19:51:25 · 1439 阅读 · 0 评论 -
首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测
本文提出一种诊断模型,能够在保证高准确率的同时,最小化假阴性率(即漏诊率),核心思想就是利用回声状态网络 (ESN) 和特征选择技术,从语音特征中提取信息,实现 PD 的诊断。原创 2024-06-23 19:09:10 · 1091 阅读 · 0 评论 -
InfoMasker :新型反窃听系统,保护语音隐私
本文提出了一种高效且鲁棒的反窃听系统Infomasker,可以在干扰麦克风的同时保留授权录音。该系统利用信息掩蔽的思想,设计了一种基于音素的噪声,可以干扰机器和人类的理解,并且难以被降噪技术去除。此外,该系统还优化了噪声传输策略,并实现了硬件原型。原创 2024-06-23 09:35:15 · 1063 阅读 · 0 评论 -
ECM和MEMS技术在心肺声学监测中的应用
在本文中首先介绍了心肺的声学特性,然后讨论了ECM、MEMS、JFET和压电效应的工作原理。最后介绍并比较利用ECM和MEMS技术的现代心肺听诊传感器。原创 2024-06-20 18:50:22 · 921 阅读 · 0 评论 -
基于睡眠声音评估睡眠质量
我们提出一个基于机器学习使用睡眠声音的睡眠质量分类模型,该模型能够提供理由,例如“由于睡眠期间频繁翻身导致睡眠质量差”。通过提供理由,可能有助于提高用户的睡眠质量。原创 2024-06-09 22:49:19 · 1379 阅读 · 0 评论 -
城市行人感知新方法:基于音频的行人检测与预测
行人的检测主要基于视频数据分析或通过红外计数器进行,这两者都比音频传感昂贵得多。有时考虑用于行人感知的更复杂的替代方案,如雷达、无线电波束、感应线圈和压电条,部署和维护成本也很高。在本文中,我们探讨将基于麦克风的传感器与为分析高度复杂的音乐音频信号而开发的方法相结合,以适应行人感知的潜力。原创 2024-06-18 11:51:00 · 1403 阅读 · 0 评论 -
使用超声波麦克风阵列预测数控机床刀具磨损
在本文中,我们将重点关注使用0 kHz至60 kHz范围内的超声波声学信号,使用超声波麦克风阵列传感器。该传感器基于eRTIS超声波传感器,它允许通过波束形成实现宽带空间滤波器的实现。在如CNC操作这样的高噪声场景中使用波束形成过滤掉不需要的噪声源来提高信号的信噪比;然后,使用卷积神经网络来执行切削工具的剩余使用寿命(RUL)预测。原创 2024-06-14 21:59:17 · 749 阅读 · 0 评论 -
声学特征在膝关节健康诊断中的应用分析
声学膝关节健康评估长期以来一直被看作是一种替代临床可用医学成像工具的替代方法,如声发射技术是通过检测膝关节在运动过程中产生的微小裂纹或损伤引起的声波信号,从而评估关节的健康状况。这种技术可以实时监测膝关节在不同活动状态下的声发射信号,帮助医生更准确地诊断和评估膝关节的损伤程度,但这种方法尚未在医疗实践中未得到广泛采用。目前该领域由处理声学特征的机器学习模型引领,这些模型已经展示了有希望的诊断性能。然而,这些方法忽视了音频信号的复杂多源性质和起作用的基本机制。原创 2024-05-27 21:38:58 · 1194 阅读 · 0 评论 -
从功能性磁共振成像(fMRI)数据重建音频
受到声学到语义流的启发,我们模拟了听觉处理路径的每个生理结构,并提出了一种相反的从粗到细的音频重建方法。我们使用非侵入性fMRI作为神经信号。首先,进行一个从粗到细的大脑解码过程。我们将fMRI数据解码到低维CLAP空间以获得粗粒度的语义特征,然后在这些语义特征的引导下,我们将fMRI数据解码到高维AudioMAE潜在空间以获得精细的声学特征。接下来,我们使用解码的精细神经特征作为条件,通过潜在扩散模型(LDM)重建mel频谱图,然后使用声码器恢复刺激波形。原创 2024-06-01 23:05:18 · 910 阅读 · 0 评论 -
自监督表示学习和神经音频合成实现语音修复
我们探讨使用语音SSL模型进行语音修复的情况,即从其周围环境中重建语音信号的缺失部分,也就是完成一个与预文本任务非常相似的下游任务。特别地,我们提出了两种解决方案来匹配HuBERT的输出与HiFiGAN的输入,通过冻结一个并微调另一个,反之亦然。然后,将插值的Mel频谱图输入到预训练的HiFiGAN声码器以生成22.05 kHz的波形,然后将其下采样到16 kHz。最近,语音/音频修复开始使用深度神经网络(DNNs),主要是全监督学习和编解码器架构,编码器输入为掩蔽的信号,解码器生成缺失部分的估计。原创 2024-05-31 23:40:56 · 1114 阅读 · 0 评论 -
PPINtonus (深度学习音调分析)帕金森病早期检测系统
PPINtonus系统是专门为早期检测帕金森病(Parkinson’s Disease, PD)设计的,它利用深度学习音调分析和生物医学声音测量值(Biomedical Voice Measurements, BVMs)来评估声音样本。该系统与帕金森声音项目(Parkinson’s Voice Project, PVP)合作,并通过使用条件生成对抗网络(Conditional Generative Adversarial Network, cGAN)来增强训练数据集。原创 2024-06-06 17:38:48 · 1418 阅读 · 2 评论