自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

梅逊雪——记录科学研究

用有限的时间遨游无限的知识空间

  • 博客(55)
  • 收藏
  • 关注

转载 骨振动传感器在TWS耳机中的应用

一颗通话麦克风加一颗骨振动传感器,可以实现比较好的通话效果,抗风噪能力强,噪声抑制效果佳,算法上也无需复杂的波束成形,简单的语音算法就可以实现,方案的整体性价比高,为越来越多的耳机厂家所采用。骨振动传感器对于空气中传播的声波信号不敏感,对空气中传播的声音信号具有天然的抑制作用,因此,通话降噪算法更简单,更自然,噪声抑制更有效,可以提供效果更佳的上行通话效果。日常生活中,语音通话的应用场景比较复杂,比如在地铁上、办公室里、机场等公共场所,对通话效果有很高的要求,在上行通话中,环境噪音的消除成为刚性需求。

2024-03-25 10:16:34 35

原创 切割wav文件至小段wav保存

该代码使用Python内置的wave模块读取WAV文件,并按照指定的块大小(20秒)切割成多个小文件,文件名按照原文件名加上序号。其中,frames是WAV文件的采样点,根据采样点数计算出要切割成多少块。切割后的每一块都写入新的WAV文件中。8.点击导出,就可以得到busnoise01.wav, busnoise02.wav, busnoise03.wav, ......请注意,该代码没有考虑WAV文件的采样位深和声道数等因素。如果需要处理非标准的WAV文件,可能需要进行调整。1.载入wav文件,

2024-01-24 10:28:46 635 1

原创 噪声数据库

这个混响包含了real和simulated,用的比较多是simulated中的小房间中房间,对应房间大小分别是1~10m和10~30m。我用的不算专用的噪音库,是一个声学场景分类的噪音,场景比较多,但是不是非常符合噪音这个范畴,可以用来做aec。像是asr asv等等领域,我们经常要用噪声来做数据增强提升模型鲁棒性,那么有什么好用的开源噪声库吗?但噪声方面比较弱,只自带了各种波形的发生器,自然环境噪声需要自己搜集一些音频文件。最大的缺点是只能用文件到文件的模式处理音频,使用tmpfs可以有效缓解这个问题。

2024-01-10 16:04:27 1175

转载 语音质量评估与可懂度评估

式中,W(j,m)是第j个频带的权重,K是频带数,M是信号的总的帧数,X(j,m)是第m帧中第j个频带的纯净信号的临界频带大小(激励谱),是相同频带中的处理信号相应的频谱绝对值。该方法存在的问题之一是在语音信号的静音期,原始信号的能量非常小,使时域分段信噪比产生大的负值,使整个的测量结果产生偏差。这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号,噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息),并且该种信号并不随原信号的变化而变化。然而,剩余的词的质量还是很好的。

2023-12-18 10:07:41 333

原创 麦克风相关知识——图后续处理

这篇文章重点介绍几种实用的波束形成算法(delaysum,delaysub,一阶差分自适应BF)原理及实现效果,再简单介绍一些知名品牌助听器中的BF方案;1.易实现的BF算法介绍1.1 delaysum延时相加和延时相减是最基本的BF处理方式,他们的原理和实现方式也很简单:一路信号延时后与另一路信号进行相加(delaysum)或相减(delaysub),其处理流程示意图如下(以相减为例):延时相减流程对delaysum来说,中低频信号不衰减,高频信号衰减约3dB;其输入和输出对比如下

2023-12-13 15:47:20 1665

转载 研究一下阵列——资料收集(会一直更新下去)

垂射麦克风阵列是垂直于所需声源放置的一维或二维麦克风阵列,可将各个麦克风发出的信号相加,从而产生所需的电信号。虽然垂射和端射麦克风阵列都可以增强所需轴向的声音捕获并衰减其他噪声源,但是垂射阵列在麦克风阵列的前面和后面可以同等成功地捕获声音。采用电子信号处理识别各个麦克风发出的所需信号,同时可以借助在各个麦克风之间传送的所需信号的相对时间延迟,确定相对于麦克风阵列的声音源。在构建 MEMS 麦克风阵列时,会使用两个或以上麦克风收集音频声音,然后结合各个麦克风发出的电信号,产生合成的电信号。

2023-12-08 11:36:12 131

原创 泰勒级数&泰勒展开, 麦克劳林级数

问的度娘,查了一下

2023-12-07 15:39:53 1743

原创 长古诗(三)

背背长古诗,陶冶情操,继续码代码,码农的简单快乐~~~

2023-11-17 14:34:52 115

原创 长古诗(二)

背背长古诗,继续码代码。码农的快乐

2023-11-17 14:33:14 239

原创 长古诗(一)

背背长古诗,继续码代码

2023-11-17 14:31:29 154 1

转载 文学——长古诗

文理结合,陶冶情操

2023-11-17 14:29:12 32

原创 比较好的资料链接积累

直播场景音频降噪,传统算法 VS AI 算法对比和实践 – 融云 Blog-融云即时通讯云|实时音视频 https://www.rongcloud.cn/blog/?p=7843

2023-10-27 09:39:45 28

转载 智能音箱技术概览

智能音箱

2023-10-07 16:59:07 171

转载 【无标题】

VAD

2023-10-07 16:41:11 41

转载 深度学习语音降噪

降噪

2023-09-27 16:23:59 947

转载 AI相关的产品

如今人工智能 (AI) 已变成了一个无所不包的术语,很多用来执行在过去需要人工输入的复杂任务的应用(例如与客户在线沟通或下棋)都可以被称作人工智能。在现实中,人工智能也经常与它的子领域互换使用,例如机器学习 (ML) 和深度学习。然而,它们之间是有区别的,例如机器学习侧重于构建能够基于自身使用的数据进行学习或改进性能的系统。换句话说,所有的机器学习都是 AI,但不是所有的 AI 都是机器学习。为了充分发挥 AI 的价值,如今许多企业正加大对数据科学团队的投入。

2023-09-26 16:45:56 306

转载 WebRTC 语音激活检测(VAD)算法

检测原理是根据人声的频谱范围,把输入的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K), 分别计算这六个子带的能量。对数似然比分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音。由于实际应用中,单纯依靠能量检测特征检测等方法很难判断人声说话的起始点,所以市面上大多数的语音产品都是使用唤醒词判断语音起始,另外加上声音回路,还可以做语音打断。

2023-09-11 15:17:03 955

转载 Makefile/Makefile.am/Makefile.in三者关系

c/c++代码

2023-09-11 13:40:55 963

转载 LS,MMSE,LMMSE,ML,MAP,LMS,AR,MSE误差介绍

这一系列算法都可以是基于接收数据来对目标数据进行估计,LS用于接收到的数据块长度一定,并且数据、噪声(干扰)的统计特性未知或者非平稳的情况,其优化目标是使得基于该数据块的估计与目标数据块间加权的欧几里德距离最小,当有多个数据块可用时,可用其递归算法RLS减小计算量;MMSE的优化目标是为了使基于接收数据的估计值和目标数据的均方误差最小化,LMMSE算是MMSE的特例,在这种情况下,基于接收数据的估计值是接收数据的线性变换,在数据统计特性已知的情况下,某些时候可以直接求解,比如维纳解。

2023-09-06 17:30:05 928

转载 直播场景音频降噪,传统算法 VS AI 算法对比和实践

将幅度谱信息经 Noise Estimator(噪音估计模块)对噪音进行估计,然后经过 Gain Estimator 进行最终 Gain 值计算,将含噪语音的幅度谱与 Gain 值相乘得到最终的增强语音幅度谱,再将其与含噪语音的相位谱结合,进行 iSTFT,从而得到增强语音。这样做的原因是,Mask 不能完全反映语音与原始语音的拟合程度,同样的 Loss 情况下,Mask 有多种可能性,基于不同 Mask 得到的语音也不是唯一的,因此用语音作为 Loss 的计算会更加贴合真实目标。

2023-09-04 15:17:48 418

转载 Python音频的数据扩充

音频数据

2023-08-15 15:04:41 120

转载 【无标题】

https://blog.51cto.com/u_15069443/2922889

2023-08-10 18:12:20 96

转载 Speex回声消除

AEC,回声消除老大难问题

2023-08-02 13:50:19 988

转载 pip安装第三方数据包

pip第三方数据包

2023-07-17 15:22:30 336

转载 英伟达显卡分类

英伟达显卡: 游戏、专业、计算

2023-05-25 14:34:54 8228

转载 神经网络参数

神经网络调参

2023-05-23 10:18:06 1464

转载 离散傅里叶变换DFT基本原理图解:矩形窗和汉宁窗

采样原理

2023-05-18 11:40:28 2708

转载 窗函数——语音处理必备

语音处理,都需要窗函数。

2023-05-18 10:57:04 1600

转载 会议终端回声消除的难点剖析及解决方案

会议终端回声消除

2023-04-04 13:47:20 285

转载 使用深度学习网络对语音去噪

比较好的介绍了全连接网络和卷积网络

2023-03-14 11:17:55 2286

转载 浅谈AI机器学习及实践总结(浅显易懂,特别好)

浅显易懂,很好

2023-03-14 09:47:39 579

转载 语音声学特征提取:MFCC和LogFBank算法的原理

MFCC参数计算

2023-03-09 16:53:10 1699

转载 OMLSA,所以先简单介绍。基于single channel的mix-max方法是单独使用(文章不错直接拷贝不成,截图,凑合看)

基于统计算法和omcra噪声估计的降噪算法总结

2023-03-09 14:02:23 349

转载 makefile的使用技巧

makefile的使用技巧

2022-06-09 11:58:05 481

转载 【LIBSVM】使用C++和LIBSVM实现机器学习+样本分类

Welcome to Chih-Jen Lin's Home Page一、了解SVM:支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 关于SVM的具体理论解释可以参考博文: 支持向量机通俗导论(理解SVM的三层境界)(因为ddl比较紧张,所以我就不求甚解地看了一下SVM原理,然后研究了一下如何实现SV..

2022-05-10 10:17:58 663

转载 机器学习算法C++实现

机器学习算法C++实现_南叔先生的博客-CSDN博客_c++ 机器学习很完整的代码,可以参考!

2022-05-09 20:37:26 696

转载 Xcode使用&调试技巧(debugging)

本文分为使用技巧面包屑导航批量Rename快速查看文档代码折叠调试技巧(debugging)日志打印(log)断点调试(Breakpoint)条件断点(conditional BreakPoint)UI层级(UI Hierarchy)内存层级(Memory Graph Hierarchy)使用技巧面包屑导航批量Rename快速查看文档代码折叠面包屑导航点击导航栏面包屑可以快速点位到该文件代码中的某部分,有助于快速找到文件中的变量或者...

2022-05-01 21:10:09 3091

原创 一种适用于多场景、多类型的音频分类标签方法及系统

https://www.qcc.com/zhuanliDetail/5b9c2eee6a40248913bb580dc3cc62a2.html

2022-04-24 10:52:46 211

原创 一种关键词识别方法、装置、设备及可读存储介质

一种关键词识别方法、装置、设备及可读存储介质 - 道客巴巴

2022-04-24 10:50:16 167

原创 语音关键词识别方法、系统、设备及存储介质

语音关键词识别方法、系统、设备及存储介质 - 道客巴巴

2022-04-24 10:47:18 2553

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除