![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
文章平均质量分 71
HenrySmale
张恒汝,博士,西南石油大学教授,硕士生导师,机器学习研究中心副主任,四川省学术和技术带头人后备人选,四川省通信管理局工业互联网领域入库专家,教育部产学合作协同育人项目入库专家,CCF、ACM会员,CAAI粒计算与知识发现专委会委员。
展开
-
利用自己构建的网络进行鼾声识别
1 目前的工作1.1 数据5692条3s且采集率为8000hz的鼾声与6824条3s且采集率为8000hz的其他类音频。通过FFT频谱转换为300个(30,513,1)的矩阵。训练集与测试集的比例为9:1。数据集来源为google开源的数据集。1.2 模型图1. The proposed deep neural network architecture for snore detection.layer1: Conv2D(1, (3, 3), strides=(1, 1), input_shap原创 2021-10-20 17:20:36 · 3405 阅读 · 3 评论 -
Audio-based snore detection using deep neural networks解读
0 摘要Background and Objective: 打鼾是一种普遍现象。 它可能是良性的,但也可能是阻塞性睡眠呼吸暂停 (OSA) 一种普遍存在的睡眠障碍的症状。 准确检测打鼾可能有助于筛查和诊断 OSA。Methods: 我们介绍了一种基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 组合的打鼾检测算法。 我们获得了转诊到临床中心进行睡眠研究的 38 名受试者的录音。 所有受试者都由放置在床周围关键位置的总共 5 个麦克风记录。 CNN 用于从声音频谱图中提取特征,而 RNN 用于处理原创 2021-10-06 21:20:22 · 4298 阅读 · 0 评论 -
睡眠音频分割及识别问题(十二)--基于IOS的YAMNet音频识别(总结)
1 结构体此部分定义了两个结构体用于存储音频信息:AudioFragment:用于存储单个音频片段(0.975s, 16000Hz)的标签评分信息;AudioInfo:用于存储整个音频信息,包含音频文件名、时间等基础信息,同时包含每个时间段的标签评分信息,即AudioFragment数组。1.1 AudioFragment 结构体属性 snoring : float; 存储打鼾对应的预测评分,例如 0.9821属性 sneeze : float; 存储打喷嚏对应的预测评分,例如 0.0原创 2021-08-23 17:00:55 · 531 阅读 · 0 评论 -
语音增强相关技术综述
1 非监督语音增强技术2 监督语音增强技术3 github上提供的源代码及分析3.1 Dual-signal Transformation LSTM Networkhttps://github.com/breizhn/DTLN用于实时噪声抑制的堆叠双信号变换 LSTM 网络 (DTLN) 的 Tensorflow 2.x 实现。这个存储库提供了在 python 中训练、推断和服务 DTLN 模型的代码。 它还提供了 SavedModel、TF-lite 和 ONNX 格式的预训练模型,可用作您原创 2021-08-20 11:23:34 · 2582 阅读 · 2 评论 -
睡眠声音识别中的准确率问题(三)--采集的音频测试结果及分析
简介本次采集的93条Snoring音频进行分析。测试结果分别测试了n取1-5、8以及10的时候的准确率,测试结果如图所示:N2345810Accuracy0.27960.47310.49460.49460.54840.5699从上表中可以得出,增大N的值可以增加识别准确率,但是当N取10时,准确率依然没有超过60%。这可能是数据太少或者音频质量问题。分质量测试我对93条音频进行人为的筛选,把我认为质量高的音频划为一类,质量低的划为一原创 2021-08-19 17:39:39 · 472 阅读 · 0 评论 -
睡眠声音识别中的准确率问题(二)--测试结果及分析
1 测试数据集介绍(1)Audioset数据集: 从该数据集中筛选出鼾声数据500条;(2)人工采集的数据集:我们收集了鼾声及咳嗽数据50条,其中鼾声数据40条,咳嗽数据10条,利用shuteye录制。2 评价指标原始标签:1个或者多个;预测标签:top-n的标签;评价方法:如果原始标签在预测标签中出现,则认为预测正确,此处不考虑原始标签在预测标签中排名。例如Snoring在top-n之中,则认为该测试数据为Snoring数据,否则认为没有打鼾。最后的预测公式为:准确率 = 预测正确的个数 /原创 2021-08-06 10:08:53 · 1549 阅读 · 0 评论 -
睡眠声音识别中的准确率问题(一)--问题描述及评价指标
如何定义睡眠声音识别中的准确率问题?睡眠声音识别出来的是一个概率分布,如下表所示:c1c_1c1c2c_2c2c3c_3c3snortspeechcough0.50.20.70.550.450.77在这种场景下,如何定义准确率?(1)借鉴标签分布学习的评价指标?(2)借鉴多标签学习的评价指标?...原创 2021-08-03 10:13:00 · 361 阅读 · 0 评论 -
睡眠音频分割及识别问题(十一)--基于Android的YAMNet音频识别(总结)
aaa原创 2021-07-28 11:52:57 · 669 阅读 · 0 评论 -
睡眠音频分割及识别问题(十)--Java读取wav文件
简介Waveform Audio File Format(WAVE,又或者是因为扩展名而被大众所知的 wav),是微软与 IBM公司所开发在个人电脑存储音频流的编码格式。由于项目需要从 wav 文件中读取音频数据,现有许多框架的 API 文档参差不齐,学习成本过高且复用性不高,所以我们准备抛弃已有的API,利用java基础io包构建自己的API。wav文件格式为了利用java 原生 io包中的字节流读取文件数据实现睡眠音频的操作,最终在 IOS 平台复现的目的,我们首先要了解 wav 文件内容格式,原创 2021-07-19 09:50:21 · 4628 阅读 · 0 评论 -
睡眠音频分割及识别问题(九)--Android下的YAMNet
部署PANNs模型面临的问题加载模型出错在使用PANNs模型时,在PC端可以较好的运行,可是在Android端运行的时候,编译过程提示缺少libpytorch_jni.so文件,导致无法加载模型,无法预测。(如果有读者可以解决这个问题,也请在评论中留言,万分感谢!)模型所需空间较大PANNs的.pt模型文件大约30M,需要转换为Android端的torchscript文件,转换过后大约40M,加上pytorch框架可能会上50M。部署YAMNet模型由于无法使用PANNs,我们尝试将YAM原创 2021-07-18 16:05:26 · 463 阅读 · 1 评论 -
睡眠音频分割及识别问题(八)--数据采集
问题在采用PANN或者YAMNet框架进行学习的时候,没有梦话、磨牙等睡眠音频数据,在一些公开数据集上也没有找到(如果有哪位读者知道,麻烦给我在评论区留言,万分感谢)。解决办法针对上面数据缺失问题,拟准备用ShutEye App来采集,该App只能在苹果手机上使用,在应用商城的软件介绍如下:采用该App的主要原因是它可以直接进行分类,其类别有:...原创 2021-07-18 15:51:26 · 483 阅读 · 7 评论 -
睡眠音频分割及识别问题(七)--接口输入输出讨论
简介关于接口输入输出的讨论。输入输入音频路径(字符串),前n名(整型)。输出列表(存多个标签的自定义类列表)。原创 2021-07-15 10:22:22 · 291 阅读 · 0 评论 -
睡眠音频分割及识别问题(六)--输入输出及方案讨论
简介2021年7月13日,我和我的三个研究生一起拜访了玉米树,和王总等一起针对睡眠音频分割及识别问题进行了深入的讨论,达成了如下共识。输入由于保存整个晚上的睡眠音频所需要的存储空间过大,目前拟采用每隔30分钟录制一段睡眠音频,然后对这段音频进行分割及识别,并保存鼾声、梦话等片段。选择30分钟作为时间片段,主要基于存储空间的考虑,下面对存储空间进行分析。30分钟单通道、16位采样位数、采样频率44.1kHz音频的不压缩数据存储量计算方法如下:每秒44100个采样点,441002=88200,30分原创 2021-07-14 11:43:57 · 682 阅读 · 0 评论 -
睡眠音频分割及识别问题(二)
输入通过手机麦克风录制的任意长度睡眠声音。输出睡眠阶段曲线,该曲线可以反映出深度睡眠,浅度睡眠、REM睡眠、清醒各个阶段。研究的核心问题1、录制策略(1)每隔10分钟录制一段睡眠音;2、采用什么策略来分割?(1)滑动窗口3、语音识别(1)利用YAMNet框架(google),该框架将语音分为了521个类;(2)或者利用PANN框架(youtube)进行识别,该框架将语音分为了527个类;(3)识别后再将其分为鼾声、梦话、翻身、咳嗽、打喷嚏、其他几个大类。由原创 2021-07-12 11:14:10 · 465 阅读 · 0 评论 -
睡眠音频分割及识别问题(三)
文献一:PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition[摘要] 音频模式识别是机器学习领域的一个重要研究课题,包括音频标注、声场景分类、音乐分类、语音情感分类和声音事件检测等多项任务。最近,神经网络已被应用于解决音频模式识别问题。但是,以前的系统建立在持续时间有限的特定数据集上。最近,在计算机视觉和自然语言处理中,在大规模数据集上预训练的系统已经很好地推广到了几个任务。然而,在用于音频模式原创 2021-07-12 15:19:09 · 812 阅读 · 0 评论 -
睡眠音频分割及识别问题(四)--YAMNet简介
1.YAMNet模型是在在 AudioSet 数据集(一个大型的音频、视频数据集)上训练的音频事件分类器。2.模型输入该模型接受float32包含任意长度波形的一维张量或 NumPy 数组,且满足范围[-1.0, +1.0]内的单声道 16 kHz 样本。在内部,该算法将波形划分为长度为 0.96 秒和跳跃 0.48 秒的滑动窗口,然后在一批这些帧上运行模型。3.模型输出该模型返回一个 3 元组(scores, embeddings, log_mel_spectrogram),其中Scores是原创 2021-07-11 21:46:01 · 2606 阅读 · 0 评论 -
睡眠音频分割及识别问题(五)--YAMNet进一步分析
简介YAMNet 是一个经过预训练的深度网络,可基于AudioSet-YouTube 语料库预测 521 种音频事件类别,并采用Mobilenet_v1深度可分离卷积架构。输入模型训练所使用的音频特征计算方式如下: 所有音频均重采样为 16 kHz 单声道。 通过长度 25 毫秒,步长为 10 毫秒,且具有周期性 Hann 时间窗的短时距傅里叶变换计算出声谱图。 通过将声谱图映射到覆盖 125 至 7500 Hz 范围的 64 个梅尔仓计算出梅尔声谱图。 声谱图..转载 2021-07-12 16:53:30 · 1106 阅读 · 0 评论 -
睡眠音频分割及识别问题(一)
问题描述通过手机App的录音功能,获得用户一整夜的睡眠音频,对睡眠音频进行分割,并对睡眠阶段进行判定。(1)假设条件一:用户在相对安静的环境下进行睡眠,背景音可能会出现风声、雨声、汽车噪音、空调声音等,背景音微弱;(2)假设条件二:一个人睡眠,不考虑多人同时睡眠产生的音频;(3)睡眠音频主要分割出鼾声、梦话及睡眠静音,手机App只保存鼾声和梦话音频片段;(4)将睡眠阶段分为Deep Sleep, Light Sleep, REM Sleep, Awake,并绘制出如下波形图:主要方案文献调研原创 2021-07-08 10:59:00 · 1313 阅读 · 2 评论