自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

凌逆战的博客

CSDN的所有文章均转载自我博客园的文章,由于转载存在丢失,想了解细节,可访问我的博客园。https://www.cnblogs.com/LXP-Never/

  • 博客(330)
  • 资源 (5)
  • 收藏
  • 关注

原创 “声”临其境网站分享

你是否也会有这样的感受:自己一个人在安静的家里反而没有工作的氛围,很难集中注意力你是否想念办公室里此起彼伏的键盘声?是否怀念图书馆里安静的翻书声?或是咖啡馆里温暖的喧嚣?当我们因为各种原因无法身处那些熟悉的空间时,这些声音成了我们最深的念想。下面为你分享一系列"想念"主题的环境音网站,让你随时随地重温那些记忆中的声音,找回那份熟悉的感觉。

2026-02-11 17:27:00 157

原创 博客写作者该何去何从

看着CSDN混的风生水起,作为博主有时候也需要流量,就想着搬家去CSDN,尝试后发现搬过去的文章格式很多对不齐,而且当我要纠错文章的时候,我不可能跑去两个平台更新,所以我选择在博客园更新纠错,CSDN是同步过去的,作为一个博客园的引流。所以我就断更了,因为我一直把博客当做我的个人知识库,当我想要找什么之前记录的知识点的时候,我还是会来博客园搜索检索。作为一个7年的博客创作者,随着AI时代的来临,我基本很少更新博客,一是用户对博客文章的需求减少了,二是我写的文章还不一定有AI写得好。

2025-09-27 20:31:00 451

原创 《古诗词里的快意人生》读后感

《古诗词里的快意人生》以诗人的人生轨迹解读诗作,展现李白"仰天大笑出门去"的潇洒、杜甫心怀天下的悲悯、岑参从边塞苦寒到"忽如一夜春风来"的蜕变。书中还刻画了韩愈的"不平则鸣"、柳宗元的豁达、温庭筠"入骨相思"的深情、苏轼"人生如梦"的豁达与忠贞,以及白居易与琵琶女"同是天涯沦落人"的共鸣。通过诗人们或潇洒、或执着、或悲情的人生故事,传递出"抓住生命发光时刻"的积极态度,

2025-09-27 16:14:53 843

原创 语音活动检测(VAD)

本文系统介绍了语音活动检测(VAD)技术及其应用。VAD通过区分语音与非语音部分,在语音编码、降噪、自动语音识别等领域发挥重要作用。文章详细解析了VAD的两大核心环节:特征提取(能量、频域、倒谱等特征)和判决机制(门限、统计模型、机器学习等方法)。重点评测了多种主流VAD工具,包括SileroVAD、FSMN-VAD、WebRTCVAD等,从原理、特点到实际应用效果进行了对比分析。其中,SileroVAD表现均衡但清辅音识别稍弱,FSMN-VAD检测准确但时间戳较宽,WebRTCVAD则适合实时场景。文章还

2025-08-10 14:48:00 1513

原创 程序人生之饮食篇

最近有健身,所以在研究减脂餐,又加上年纪快30了,不想那么快变老所以顺带研究了一下饮食,如何抗氧化😅。

2024-10-10 16:46:43 1289

原创 语音信号处理中的“窗函数”

文章代码仓库:https://gitee.com/LXP-Never/window_fun窗函数贯穿整个语音信号处理,语音信号是一个非平稳的时变信号,但“**短时间内可以认为语音信号是平稳时不变的,一般 10~30ms**。对连续的语音分帧做STFT处理,等价于截取一段时间信号,对其进行周期性延拓,从而变成无限长序列,并对该无限长序列做FFT变换,这一截断并不符合傅里叶变换的定义。因此,...

2024-05-06 15:38:00 4386 1

原创 如何快速了解一个行业

那么作为门外汉,如何快速了解一个行业。可以从四个层面系统性地去了解1、行业了解的目的一般来说,从企业角度出发做行业分析的目的通常有三个:了解所属行业的发展现状、竞争优劣、行业前景等,现在这个行业里竞争环境如何。挖掘行业机会点,明确优势,看清劣势,寻找与领先企业的差距,改善资源配置,扬长避短。分析市场产品布局,找到企业产品层面的突破,为新产品做行业调研、市场分析、行业的发展动态,竞品...

2024-02-15 12:27:00 1981

原创 论文阅读:2023_Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables

论文地址:语义听觉:用双耳可听器编程声学场景论文代码:https://semantichearing.cs.washington.edu/引用格式:Veluri B, Itani M, Chan J, et al. Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables[C]//Proceedings of ...

2023-12-06 11:19:00 1187

原创 Linux后台跑程序的方法总结

当使用ssh进行远程代码运行时,控制端电脑通常不能出现任何意外。然而,运行深度学习程序通常需要数小时或数天的时间,这意味着我们的IDE不能关闭。一旦出现非人为因素(如断电、断网或IDE卡死关闭),远程程序也会中断。因此,将程序灵活地运行在服务器上,不受控制端因素的影响至关重要。

2023-12-04 17:06:00 1015 2

原创 anker创新-2023年秋季校园招聘-音频算法方向

安克创新音频团队招聘了

2023-11-08 10:47:06 937

原创 安克创新音频算法工程师(应届生)招聘

负责音频处理算法的研发和优化,包括但不限于噪声抑制、回声消除、声反馈抑制、音效、声纹、唤醒、指令词识别等。对音频处理系统进行模拟和实验,验证算法的性能, 参与音频算法的性能评估和调试,解决实际应用中的问题。在音频信号处理、唤醒、关键词、声纹、声学事件检测一个或多个方向有较深入研究。熟练掌握C、Python、Shell等编程语言,熟悉常用的深度学习框架。好的团队协作精神,较强的沟通能力以及英文读写能力,对技术研发有热情。信号处理、计算机、电子信息、自动化等相关专业硕士及以上学历。

2023-11-08 10:04:01 685

原创 EQ 均衡器

EQ 的全称是 Equalizer,EQ 是 Equalizer 的前两个字母,中文名字叫做“均衡器”。最早是用来提升电话信号在长距离的传输中损失的高频,由此得到一个各频带相对平衡的结果,它让各个频带的声音得到了均衡。。

2023-10-06 23:12:33 8579 2

原创 论文翻译:2021_Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net

论文地址:微型循环U-Net实时降噪和去混响论文代码:https://github.com/YangangCao/TRUNethttps://github.com/amirpashamobinitehrani/tinyrecurrentunet引用格式:Choi H S, Park S, Lee J H, et al. Real-Time Denoising and Derever...

2023-06-26 15:27:00 1944

原创 如何跟踪语音领域的技术

语音顶会ICASSP 所有年份论文集下载地址:https://ieeexplore.ieee.org/xpl/conhome/1000002/all-proceedingsInterspeech 所有年份论文集下载地址:https://www.isca-speech.org/archive/期刊IEEE Transactions on Audio, Speech and Language...

2023-03-24 14:25:00 1407

原创 论文翻译:2023_THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement...

论文地址:THLNet: 用于单耳语音增强的两级异构轻量级网络代码:https://github.com/dangf15/THLNet引用格式:Dang F, Hu Q, Zhang P. THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement[J]. arXiv preprint...

2023-03-21 14:19:00 1672

原创 论文翻译:2022_Phase-Aware Deep Speech Enhancement: It’s All About The Frame Length

摘要  虽然相位感知语音处理近年来受到越来越多的关注,但大多数帧长约为32 ms的窄带STFT方法显示出相位对整体性能的影响相当有限。与此同时,现代基于深度神经网络(DNN)的方法,如Conv-TasNet,隐式修改幅度和相位,在非常短的帧(2 ms)上产生了出色的性能。  在这一观察的启发下,本文系统地研究了相位和幅度在不同帧长的DNN语音增强中的作用。结果表明,基于相位感知的神经网络可以...

2023-02-08 20:05:00 1664

原创 论文翻译:2022_Time-Shift Modeling-Based Hear-Through System for In-Ear Headphones

论文地址:基于时移建模的入耳式耳机透听系统引用格式:摘要  透传(hear-through,HT)技术是通过增强耳机佩戴者对环境声音的感知来主动补偿被动隔离的。耳机中的材料会减少声音 500Hz以上的高频成分。HT算法利用麦克风和用户耳朵之间的相对传递函数(RTF)产生人造声音,从而弥补环境声音的损失。通常,HT的性能取决于环境声音的到达方向(direction of arrival...

2023-02-07 08:54:00 1384

原创 论文翻译:2020:ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speake...

论文地址:ECAPA-TDNN:在基于TDNN的说话人验证中强调通道注意、传播和聚集论文代码:https://github.com/TaoRuijie/ECAPA-TDNN引用格式:Desplanques B, Thienpondt J, Demuynck K. Ecapa-tdnn: Emphasized channel attention, propagation and aggreg...

2023-02-06 10:20:00 2694

原创 论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement

博客地址:凌逆战 (转载请注明出处)论文地址:PercepNet+: 用于实时语音增强的相位和信噪比感知 PercepNet引用格式:Ge X, Han J, Long Y, et al. PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement[J]. arXiv preprint arX...

2023-02-05 17:04:00 1738

原创 论文翻译:2022_腾讯DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for I...

论文地址:TEA-PSE: 用于ICASSP 2022 DNS挑战赛的Tencent-ethereal-audio-lab 个性化语音增强系统论文代码:引用格式:Ju Y, Rao W, Yan X, et al. TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 20...

2023-02-03 16:06:00 1504

原创 论文翻译:2022_2022_TEA-PSE 2.0:Sub-Band Network For Real-Time Personalized Speech Enhancement...

论文地址:TEA-PSE 2.0:用于实时个性化语音增强的子带网络论文代码:引用:摘要  个性化语音增强(Personalized speech enhancement,PSE)利用额外的线索,如说话人embeddings来去除背景噪声和干扰语音,并从目标说话人提取语音。此前,Tencent - Ethereal - Audi...

2023-02-02 10:47:00 1807

原创 动态范围控制原理

DRC介绍  开门见山,动态范围的定义就是信号的最大幅值和最小幅值比值的对数(单位dB),  动态范围会受到系统中各个环节的影响。例如同样是这段音乐,在一个40dB背景噪声的环境中播放,那么由于掩蔽效应等因素的影响,最终实际听到的音乐动态范围实际上是50dB。  动态范围会受到系统中各个环节的影响。例如同样是这段音乐,在一个40dB背景噪声的环境中播放,那么由于掩蔽效应等因素的影响,最终...

2023-01-11 18:45:00 4917

原创 论文翻译:2022_DNS_1th:Multi-scale temporal frequency convolutional network with axial attention for spee...

论文地址:带轴向注意的多尺度时域频率卷积网络语音增强论文代码:https://github.com/echocatzh/MTFAA-Net引用:Zhang G, Yu L, Wang C, et al. Multi-scale temporal frequency convolutional network with axial attention for speech enhanceme...

2022-12-09 09:41:00 3050

原创 论文翻译:2022_DeepFilterNet2: Towards Real-Time Speech Enhancement On Embedded Devices For Fullband Audi...

博客地址:凌逆战论文地址:DeepFilternet2: 面向嵌入式设备的全波段音频实时语音增强论文代码:https://github.com/Rikorose/DeepFilterNet引用格式:Schröter H, Rosenkranz T, Maier A. DeepFilterNet2: Towards Real-Time Speech Enhancement on Embed...

2022-11-16 11:59:00 3000

原创 Pytorch模型量化

在深度学习中,量化指的是使用更少的bit来存储原本以浮点数存储的tensor,以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点:更少的模型体积,接近4倍的减少;可以更快的计算,由于更少的内存访问和更快的int8计算,可以快2~4倍。一个量化后的模型,其部分或者全部的tensor操作会使用int类型来计算,而不是使用量化之前的float类型。当然,量化还需要底...

2022-10-25 20:41:00 16248 15

原创 Tensorflow Lite从入门到精通

  TensorFlow Lite 是 TensorFlow 在移动和 IoT 等边缘设备端的解决方案,提供了 Java、Python 和 C++ API 库,可以运行在 Android、iOS 和 Raspberry Pi 等设备上。目前 TFLite 只提供了推理功能,在服务器端进行训练后,经过如下简单处理即可部署到边缘设备上。个人使用总结:如果我们只使用Tensorflow的高级AP...

2022-10-24 12:14:00 8250 1

原创 论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

回声会降低语音通信系统的用户体验,因此需要完全抑制。提出了一种利用卷积神经网络实现实时残余声回波抑制的方法。在多任务学习的背景下,采用双语音检测器作为辅助任务来提高RAES的性能。该训练准则基于一种新的损失函数,我们称之为抑制损失,以平衡残余回波的抑制和nearend信号的失真。实验结果表明,该方法能有效抑制不同情况下的残余回波。

2022-10-10 09:47:30 1367

原创 语音和噪声相关数据集(持续更新)

语音领域和纯净语音和纯净噪声数据集 收集和整理

2022-10-07 18:15:45 15525 15

原创 《古诗词里的快意人生》读后感

  《古诗词里的快意人生》通过讲解诗人的一生让我了解每一首诗的来源背景。一生都在追求极致潇洒的天才诗人李白;一生遭遇很不幸,却心怀天下做狂歌的杜甫。为了功名来到边塞,从悔恨到渐渐爱上边塞的岑参。追求“不平则鸣”的韩愈;“世界以痛吻我,却报之以歌”的柳宗元;魅力四射的温庭筠,他写出了:玲珑骰子安红豆,入骨相思知不知,这句诗我可爱了。温庭筠的爱情却是比他小30多岁的鱼玄机,上天不会放过任何一个拆散...

2022-09-18 19:45:00 1762

原创 《生死疲劳》读书有感

先上人物关系图。

2022-09-18 16:00:00 1673

原创 神经网络模型的参数量和计算量

其实模型的参数量好算,但浮点运算数并不好确定,我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算,它的参数量比较小,但是运算量非常大,它是一种计算密集型的操作。反观全连接结构,它的参数量非常多,但运算量并没有显得那么大。FLOPs(Floating-point Operations):浮点运算次数,理解为计算量,可以用来衡量算法的复杂度。一个乘法或一个加法都是一个FLOPsFLOP...

2022-09-08 14:02:00 4724 1

原创 论文翻译:2021_A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Based on ...

论文地址:一种新的基于循环神经网络的远场语音通信实时噪声抑制算法引用格式:Chen B, Zhou Y, Ma Y, et al. A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Based on Recurrent Neural Network[C]//2021 IEEE Inter...

2022-08-26 17:38:00 2413

原创 论文翻译:2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural...

论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks[J]. arXiv preprint arXi...

2022-08-16 21:41:00 2147

原创 论文翻译:2021_LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement

论文地址:延迟约束的语音增强基音估计引用格式:Schröter H, Rosenkranz T, Escalante-B A N, et al. LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement[C]//Interspeech. 2021: 656-660.摘要  基频($f_0$)估计,又称基音跟踪,...

2022-08-07 21:37:00 1408

原创 论文翻译:2022_Time-Frequency Attention for Monaural Speech Enhancement

论文地址:单耳语音增强的时频注意引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Process...

2022-08-04 11:29:00 2899 2

原创 WAVE音频格式及及转换代码

音频信号的读写、播放及录音  python已经支持WAV格式的书写,而实时的声音输入输出需要安装pyAudio(http://people.csail.mit.edu/hubert/pyaudio)。最后我们还将使用pyMedia(http://pymedia.org)进行Mp3的解码和播放。  音频信号是模拟信号,我们需要将其保存为数字信号,才能对语音进行算法操作,WAV是Microsof...

2022-06-19 17:10:00 3666 2

转载 论文翻译:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Netw

论文地址:基于高效多任务卷积神经网络的残余声回波抑制  回声会降低语音通信系统的用户体验,因此需要完全抑制。提出了一种利用卷积神经网络实现实时残余声回波抑制的方法。在多任务学习的背景下,采用双语音检测器作为辅助任务来提高RAES的性能。该训练准则基于一种新的损失函数,我们称之为抑制损失,以平衡残余回波的抑制和nearend信号的失真。实验结果表明,该方法能有效抑制不同情况下的残余回波。关键词:residual acoustic echo suppression, convolutional neural n

2022-06-14 17:43:57 991

转载 自适应滤波器算法综述以及代码实现

作者:凌逆战文章地址:自适应滤波器算法综述以及代码实现 - 凌逆战 - 博客园并不是每个自适应滤波器的的代码我都实现了,我需要一定的时间,一有时间我就会来更新代码,记得关注我,如果有问题记得反馈另外科研严谨,搞科研的建议多看论文,因为我是业余的,写这领域的博客主要是因为感兴趣爱好,博客也难免会有错误,所以不要以我为准,可以做个参考,如果能够帮到你,我会很欣慰。  声学回声是指扬声器播出的声音在接受者听到的同时,也通过多种路径被麦克风拾取到。多路径反射的结果产生了不同延时的回声,包括直接回声和间接回声。直接回

2022-06-14 17:43:01 10646 1

转载 python:列表

list( ) # 创造列表list(可迭代对象)  # 将可迭代对象创造成列表切片索引:列表[a:b]切片索引赋值:列表[切片] = 可迭代对象L = [2,3,4]L[0:1] = [23,34] #把L中的第一个换成[23,34]print(L) # [23, 34, 3, 4]L[2:] = [3.3,4.4,5.5] #[23, 34, 3.3, 4.4, 5.5]print(L)L[:] = [3, 4]L[0:0] = [1, 2] #[1, 2, 3, 4]在索

2022-06-14 16:27:30 620

转载 python:多进程

意义:充分利用计算机的资源提高程序的运行效率定义:通过应用程序利用计算机多个核心,达到同时执行多个任务的目的实施方案: 多进程、多线程并行:多个计算机核心并行的同时处理多个任务并发:内核在多个任务间不断切换,达到好像内核在同时处理多个任务的运行效果程序:是一个可执行文件,是静态的,占有磁盘,不占有计算机运行资源进程:程序在计算机中运行一次的过程、进程是一个动态的过程描述,占有CPU内存等计算机资源的,有一定的生命周期* 同一个程序的不同执行过程是不同的进程,因为分配的计算机资源等均不同父子进程:系统中每一个

2022-06-14 16:26:56 1742

论文投稿PACS索引(Physics and Astronomy Classification Scheme)

PACS像中图分类号一样,有些论文期刊需要用到,如陕西师范大学学报(自然科学版),可以通过我给的文档进行查询。

2020-09-20

RNNoise的python版本

源RNNoise是C语言写的,阅读门槛较高,我对照着每行C语言改写成了Python,python阅读起来更加轻松,方便大家对RNNoise的更深一步了解,以及调试代码。

2022-07-11

IEMOCAP数据库(百度云盘).txt

互动式情感和弦运动捕捉(IEMOCAP)数据库是一个实用的多模式多说话者数据库,最近在南加州大学SAIL实验室收集。它包含大约12个小时的视听数据,包括视频,语音,面部动作捕捉,文本转录。它由两部分组成,参与者在其中进行即兴表演或剧本剧本,特别是为了引起情感表达而选择的。IEMOCAP数据库由多个注释者注释为类别标签,例如愤怒,幸福,悲伤,中立,以及维数标签(如价,激活和支配)。详细的动作捕捉信息,引发真实情绪的交互式设置以及数据库的大小,使该语料库成为社区中现有数据库的有价值的补充,用于研究和建模多模式和表达性人类交流。

2021-07-02

python+飞机大战项目

python+飞机大战项目+代码+笔记。学好python,做好人工智能

2018-09-10

python电子词典项目代码+笔记

python电子词典项目代码+笔记python电子词典项目代码+笔记

2018-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除