- 博客(33)
- 收藏
- 关注
原创 深度学习中的梯度消失与梯度爆炸
在训练深度神经网络时,一个经典问题是和。随着网络层数增加,反向传播中的梯度会在多层之间不断相乘。如果这些乘积逐渐变小,梯度就会衰减到接近 0;如果逐渐变大,梯度则会迅速增大。这会导致网络难以训练甚至完全不收敛。这一问题在和中都非常常见。
2026-03-09 17:26:20
469
原创 声源定位算法5----SRP-PHAT(2)
本文基于 MATLAB 给出了 SRP-PHAT 声源定位算法的两种常见仿真实现方式:频域直接实现和时域 GCC-PHAT 实现。两种方法共享同一套阵列模型、声源模型与扫描网格,仅在空间响应计算阶段采用不同的实现思路。频域直接实现与理论公式对应关系更直接,适合用于理解算法结构;时域 GCC-PHAT 实现则在计算效率上更具优势,更接近实际工程中的常见实现方式。
2026-03-09 13:52:08
599
原创 声源定位算法5----SRP-PHAT(1)
SRP-PHAT 是阵列声源定位中一种经典的宽带定位方法,其全称为,即带相位变换加权的引导响应功率算法。该算法的核心思想是:对于空间中的每一个候选点,先根据阵列几何计算该点对应的各麦克风对理论时延差,再利用这些理论时延差去评估各通道对的相位一致性,并将所有通道对的结果累加,最终把累加值最大的点作为声源位置。与传统延时求和波束形成不同,SRP-PHAT 并不直接对各通道信号做相干叠加,而是通过GCC-PHAT来衡量通道对之间的时延匹配程度,因此在噪声和混响环境下通常具有更好的鲁棒性。
2026-03-09 10:41:14
596
原创 自编码器在振动异常检测中的应用
在机械设备状态监测中,振动信号能够反映设备的运行状态。例如在发电机组、电机、风机等设备中,当轴承损伤、转子不平衡或结构松动时,振动信号往往会发生明显变化。也就是说:没有故障标签无法直接进行监督学习只能通过信号本身的结构特征发现异常并结合实际采集的发电机组振动数据进行示例说明。
2026-03-06 11:55:42
782
原创 图像分类:PRPD 图谱放电类型识别实战(三)-------ONNX → RKNN 转换与 RK3588 NPU 部署(C++ / Qt)
本文完成了 PRPD 放电类型识别模型在 RK3588 平台上的部署,主要包括:ONNX 模型转换为 RKNNRK3588 NPU 推理实现Qt 应用集成至此,PRPD 图谱识别系统已经实现了从模型训练到嵌入式部署的完整流程。欢迎大家关注我,后续我会继续更新更多关于深度学习与信号处理的相关知识。
2026-03-04 16:55:05
727
原创 互功率谱密度(CPSD)详解:定义、推导、物理意义与计算方法
设两个宽平稳随机信号:x(t),y(t)它们的互相关函数定义为:其中:τ 为时间延迟𝔼{·} 表示数学期望*表示复共轭物理意义:当 y 相对 x 延迟 τ 时,两者的统计相关程度。互功率谱密度定义为互相关函数的傅里叶变换:因此可以得到一个重要结论:互功率谱密度是互相关函数的频域表示。互功率谱密度的核心思想可以概括为:它是互相关函数的频域表达它等于一个信号频谱与另一个信号共轭频谱的乘积它是复数,包含幅值与相位信息相位项揭示时间延迟是构建相干函数、传递函数和多通道协方差矩阵的基础。
2026-03-02 17:02:47
1119
原创 基于 GCC-PHAT 的 TDOA 估计方法
在前文中已经系统介绍了等空间谱类方法。这些方法本质上基于阵列协方差矩阵与空间导向矢量进行建模与反演。而在阵列信号处理中,还有一类同样重要但思想不同的方法——。TDOA 是阵列定位中最基本的观测量之一。在远场假设下,两麦之间的时间差即可直接映射为方位角;在近场或多阵元情况下,多个 TDOA 可构成双曲线交汇定位问题。GCC-PHAT 是当前工程中最常用、最稳健的 TDOA 估计方法之一。本文系统给出其数学推导、工程实现逻辑及物理约束条件。
2026-03-02 10:48:25
917
原创 MFCC 原理与工程应用解析
MFCC 实际完成了:频率轴非线性压缩幅值对数压缩正交去相关维度降低在语音识别中效果稳定;在机械声纹分析中也可使用,但需要根据频率范围调整 Mel 滤波器数量与参数。本文介绍了 MFCC 的基本原理和处理流程。从短时频谱到 Mel 频带压缩,再到对数变换与 DCT 展开,MFCC 实际上是对频谱包络进行压缩后的低维表示。它并不是简单的频率特征,而是一组描述谱形状的倒谱系数,能够在保留主要结构信息的同时有效降低维度。
2026-02-28 17:09:09
1312
原创 图像分类:PRPD 图谱放电类型识别实战(二)------模型转 ONNX 与嵌入式 C++ 部署
整个模型落地流程可以总结为四个关键词:一致性可复现数值验证逐级确认不要跳步骤。很多部署失败的根本原因不是模型问题,而是:数据预处理不一致数据格式错误softmax 重复输入维度错误只要严格按照:H5 验证 → ONNX 验证 → C++ 验证逐级确认,模型部署会非常稳定。欢迎大家关注我,后续我会继续介绍将ONNX转换成RKNN,并使用NPU进行推理。
2026-02-28 13:37:33
1048
原创 图像分类:PRPD 图谱放电类型识别实战(一)
PRPD(Phase Resolved Partial Discharge)图谱用于刻画局部放电的相位分布特征。沿面放电:因此,该问题可以抽象为:其中:输入:单张 PRPD 图谱输出:放电类型类别这就是一个标准的多分类图像问题。
2026-02-27 17:57:21
1343
原创 普通卷积与深度可分离卷积:结构本质、计算代价与工程取舍
普通卷积:表达能力更自由,但计算密集。深度可分离卷积:结构受限,但计算高效。表达自由度vs计算成本后续我将继续更新更多关于信号处理以及机器学习的知识。声纹与振动信号分析笔记_再一次等风来的博客-CSDN博客声源定位算法_再一次等风来的博客-CSDN博客计算机视觉_再一次等风来的博客-CSDN博客。
2026-02-26 17:38:41
1171
原创 离散小波分解(DWT):工程视角下的多尺度信号工具
DWT 是一种多尺度频带分解工具,可以把信号拆成不同频带的时间序列,用于能量分析、去噪和特征提取,是工程诊断中非常实用的方法。DWT 之所以可以下采样而不出问题,是因为它使用了满足正交镜像条件的滤波器组,使得下采样产生的混叠在重构阶段被精确抵消。下采样会引入频谱折叠但因为分频已经完成折叠只发生在该频带内部不会污染其他频带重构时会被结构性抵消所以 DWT 分解得到的信号可以正常使用。DWT 分解信号的频谱坐标发生变化,但频带信息没有被破坏。
2026-02-26 13:15:56
1345
原创 连续小波变换(CWT):从傅里叶到时频局部分析
连续小波变换定义为:解释:本质是信号与缩放小波的内积衡量信号在尺度a、位置b处的相似程度因此:CWT是一个二维函数 W(a,b)。
2026-02-25 14:41:50
1117
原创 自适应数据分解方法:EMD 与 EEMD 原理及实现
一个函数被称为 IMF(Intrinsic Mode Function)需满足:1)在整个数据区间内,极值点数与零交叉点数之差不超过 12)任意时刻,上下包络的均值为 0数学表达:设上包络为,下包络为,则:若满足:则该分量可视为 IMF。EMD 是一种完全数据驱动的自适应分解方法,适用于强非线性、非平稳信号分析。EEMD 通过引入白噪声并进行集合平均,有效缓解模态混叠问题。在振动故障诊断、声学分析、生物医学信号处理等领域,EMD 系列方法已成为重要工具。EMD分解数据示例。
2026-02-25 10:48:01
824
原创 三相交流电机轴承故障振动数据(2):基于 EEMD-IMF 包络 PSD 的特征构建与网络训练
因此,本文后续的特征构建流程确定为:这条链路的核心思想是:用物理机制引导特征设计,再用神经网络完成判别。本篇构建的是一个物理引导型基线模型:EEMD 分解→ IMF 包络 PSD→ 1D CNN 分类它的优势在于:特征有物理含义输入结构固定训练流程规范可扩展为多 IMF、多通道融合下一步可以探索:自动选择 IMF拼接多个 IMF 特征加入数据增强引入多尺度网络结构后续我将继续更新更多声纹与振动信号分析的内容,欢迎大家关注我。
2026-02-15 10:04:55
874
原创 三相交流电机轴承故障振动数据(1):从零读取数据集并完成经典图谱分析(时域/频谱/PSD/包络/包络谱/倒频谱/EMD/EEMD)
本篇文章的目标很明确:拿到一个真实数据集,从零开始完成读取、基础检查,并用一套工程上常用的图谱把信号“看明白”。内容包含:时域波形、FFT 幅值谱、Welch 功率谱密度(PSD)、Hilbert 包络、带通后包络、包络 PSD(包络谱)、倒频谱(Cepstrum),以及 EMD/EEMD 分解与 IMF 包络谱示例。下篇文章会在此基础上,把 EEMD-IMF 包络 PSD 固化为 1024 维特征,并构建 1D CNN/MobileNet1D 完成分类 baseline。
2026-02-13 13:38:07
949
原创 信号去偏置与去趋势:为什么必须做,以及如何做
从实验结果可以归纳出以下规律:去均值只解决 0 Hz 问题线性去趋势可有效抑制慢变斜坡多项式去趋势适合复杂漂移高通滤波属于频域抑制差分会放大高频噪声去偏置是基础操作趋势会严重污染低频频谱不同方法适用于不同场景真正严谨的信号处理,不是机械执行 detrend,而是理解信号组成,根据实际情况再做决策。后续我会在声纹与振动信号分析入门:常用时域与频域指标 + 常见图谱怎么看-CSDN博客继续更新声纹以及振动信号相关的知识。
2026-02-13 09:33:09
1050
原创 YOLOv8 实战指南(四):两种ONNX模型验证
对比项原始 ONNX修改后 ONNX输出数量19是否已DFL是否是否已grid还原是否是否已concat是否后处理复杂度低高可控性低高原始 ONNX 模型输出的是已经完成 DFL 解码、grid 与 stride 坐标还原以及多尺度拼接后的最终候选框张量,本质上已经是图像坐标系下的检测结果形式,后处理只需进行阈值筛选与 NMS,结构简单,适合 PC 端快速验证与数值对齐。
2026-02-12 12:13:39
1711
原创 YOLOv8 实战指南(三):RKNN模型C++部署实现
在前两篇文章中(),我们已经完成了 YOLOv8 模型从训练到可部署模型的完整准备工作:首先基于自定义数据集完成了 YOLOv8 模型的训练;随后结合瑞芯微官方提供的 YOLOv8 工程,对模型进行了规范化导出,将.pt模型转换为结构可控、适配 RKNN 的 ONNX 计算图,并进一步完成了 ONNX 到 RKNN 的模型转换;最后,在 PC 端仿真环境中对生成的 RKNN 模型进行了功能验证,确认模型能够正常加载、推理并输出合理结果。
2026-02-11 14:44:55
1003
原创 声源定位算法4----CLEAN-SC(2)
上篇博客中,推导了Clean-SC算法,这篇文章我将推导该算法工程实现,同时使用matlab仿真实现该算法。
2026-02-11 09:16:29
834
2
原创 为什么频率分辨率必然是 fs / N
在 N 个采样点上,DFT 只能构造 N 个彼此正交的频率方向,因此频率分辨率必然是 fs / N。从「有限观测时间」出发。
2026-02-05 07:42:47
698
原创 YOLOv8 实战指南(二):模型导出与结构验证(PT → ONNX → RKNN)
在上一篇中,我们已经完成了模型训练流程。本篇将继续向工程落地方向推进,但,而不涉及真实端侧部署。由于工作中用到了瑞芯微的3588芯片,真正的 RK3588 板端部署等内容,将在下一篇单独展开。本篇和上一篇一样聚焦于工程实现,重点在于“能用起来”。
2026-02-04 00:15:22
811
原创 声源定位算法4----CLEAN-SC(1)
Clean-SC 并不是一个“直接生成声图”的算法。它的输出是一组被逐次剥离的、与主峰方向空间相干的 rank-1 声场分量。声源图是在 Clean-SC 迭代完成后,通过将这些分量重新投影到扫描网格并累加得到的。对于宽频信号,Clean-SC 需要在每个频点独立执行,最终通过频带积分形成宽带声图。在下一篇博客中,我将讲解Clean-SC算法的仿真实现。
2026-02-03 00:04:48
662
原创 声源定位算法3----MVDR(2)
再中我介绍了MVDR的推导和思想。在中,分母项为:对于一组给定的观测数据,协方差矩阵 Rxx是固定的,因此也是固定的。
2026-02-02 14:48:44
812
原创 声源定位算法3----MVDR(1)
CBF只对齐目标方向,其它方向不做区分MVDR保证目标无失真,其它方向自适应抑制MUSIC利用子空间正交性做模型匹配判断 在 MVDR 中的作用,并非增强目标信号,而是系统性地抑制阵列数据中已经占主导的空间能量模式。MVDR 在空间扫描时,通过不失真约束禁止这种抑制发生在当前假设方向上。该方向并非真实声源时,抑制机制可以充分发挥;当该方向恰好对应真实声源时,抑制机制在数学上被迫失效,从而使该方向在空间谱中显现为峰值。
2026-02-02 13:04:21
962
原创 声纹与振动信号分析入门:常用时域与频域指标 + 常见图谱怎么看
本文对声纹与振动分析中常见的时域指标、频域指标以及几类常用谱图进行了一个基础性的梳理,主要目的是帮助对相关分析工具有一个整体认识,为后续分析打下基础。在后续内容中,除了基础的时域和频域分析外,也会介绍一些常用的数据处理方法,例如 EMD 等自适应分解方法,以及其他在实际数据中较为常见的预处理与特征提取手段。并在此基础上构建深度神经网络,对声纹和振动数据进行训练与故障诊断分析/声纹识别。(计划开一个专栏记录自己在日常工作中用到的一些信号处理的知识以及其余一些零散的知识,也便于自己后来翻看)
2026-01-31 11:25:31
1077
原创 YOLOv8 实战指南:从数据预处理到模型训练
在开始标注之前,需要先明确检测或分割的目标类别。类别定义应尽量在标注前一次性确定,中途频繁修改类别名称或顺序,会给后续训练和模型管理带来不少麻烦。以目标检测任务为例,每个目标类别都会对应一个整数编号(从 0 开始)。在标注时,所有标签文件都会直接使用这个编号,因此后续训练时的类别顺序必须与标注阶段保持一致。
2026-01-30 14:33:08
1279
原创 声源定位算法2----MUSIC(2)
把所有满足的向量集合定义为噪声子空间,并选取一组正交基,记为矩阵:由定义立即得到结论:这一整条理论链条的唯一目的就是证明“正交性一定成立”。如果你能得到噪声子空间 En,它一定与真实导向矢量正交。
2026-01-30 09:12:07
877
2
原创 声源定位算法2----MUSIC(1)
方法核心思想分辨率抗干扰计算复杂度CBF延时对齐 + 能量叠加低低低MUSIC子空间正交性高中高CBF 看的是“能量最大”,MUSIC 看的是“是否正交”。
2026-01-29 14:16:29
863
原创 声源定位算法1----CBF(3)
前面两篇介绍了CBF的基本原理,同时实现了宽频信号的频域CBF算法。下面我谈一下我认为怎么在实际工程中实现CBF,以及我遇到过的问题。
2026-01-29 00:32:49
703
原创 声源定位算法1----CBF(2)
算法模型采用近场,麦克风阵列采用72通道的多臂螺旋。采用matlab实现CBF的宽频信号 频域算法。从图中可以看到谱峰所在位置与仿真声源位置对应。
2026-01-28 11:30:47
59
原创 声源定位算法1----CBF(1)
实习加工作大概三年时间,最近感觉之前的知识有些已经遗忘,所以开个博客记录自己的一些工作。博客内容由GPT和我共同编辑,主要目的是为了记录,防止自己遗忘,也希望博客的内容有些能对大家有所帮助。言归正传:声源定位(Sound Source Localization, SSL)里最基础、最常用的基线方法之一,就是,也叫。。扫描所有方向(或网格点)后,就能得到一张“空间能量图”,峰值位置对应声源。
2026-01-28 11:09:14
958
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅