shadowismine-CSDN博客

原创 Reliable Visualization for Deep Speaker Recognition - 语音可解释性

MOTIVATION OF READING: 语音任务可解释性Link: http://arxiv.org/abs/2204.03852Code：http://project.cslt.org/Motivation of the work:Three CAM algorithms will be investigated: Grad-CAM++, Score-CAM and Layer-CAM. The main idea of these algorithms is to generate a salie

2024-02-20 23:13:16 876

原创（Self-supervised learning）Self-Supervised Feature Learning for Appliance Recognition in NILM

MOTIVATION OF READING: 第一篇通过自监督学习在NILM上的应用。

2023-12-30 22:00:49 988

原创 (Self-supervised Learning) MoCo - Momentum contrast for unsupervised visual representation learning

In自监督学对比学习代表作、Momentum 动量对比, INFONCElink:Code:对于对比学习就是要构造对比方式进行学习特征表示。只要有新的正负样本的对应方式，就是有新的对比方法。

2023-12-30 14:33:13 1027

原创（self-supervised learning）Event Camera Data Pre-training

ICCV 2023。

2023-12-30 10:18:26 1022

原创论文阅读 Improved Appliance Classification in NILM Using Weighted RCNN (recurrence graph)

Publisher: EnergiesPublising Date: 2020MOTIVATION OF READING: 1. zero-crossing method for data preprocessing. 2. recurrence graph (RG).Probelm statement: the performance of V–I-based approaches is still unsatisfactory as it is still not distinctive enough

2023-12-26 19:34:36 1036 1

原创论文阅读-Non-intrusive load identification using reconstructed voltage–current images

MOTIVATION OF READING: 在基于VI轨迹的方法中，不同的设备可能具有相同的轨迹。

2023-12-25 20:08:58 963 1

原创图卷积神经网络发展

这个更新公式表达的思想自然又贴切：不断地利用当前时刻邻居结点的隐藏状态作为部分输入来生成下一时刻中心结点的隐藏状态，直到每个结点的隐藏状态变化幅度很小，整个图的信息流动趋于平稳。GNN的学习目标是获得每个结点的图感知的隐藏状态 ℎv(state embedding)，这就意味着：对于每个节点，它的隐藏状态包含了来自邻居节点的信息。压缩映射就是指，经过 F变换后的新空间一定比原先的空间要小，原先的空间被压缩了。公式中的𝐱𝑐𝑜[𝑣]指的是与结点v相邻的边的特征，𝐱𝑛𝑒[𝑣]指的是结点v的邻居结点的特征，

2023-12-21 08:29:39 1473

原创 Pooling方法总结（语音识别）

Pooling layer将变长的frame-level features转换为一个定长的向量。在一段话中，往往某些帧的帧级特征比其他帧的特征更为独特重要，因此使用attention赋予每帧feature不同的权值。其中f(.)代表非线性变换，如tanh or ReLU function。最后将每帧特征加劝求和。

2023-12-21 08:29:08 1898

原创 (论文阅读)Non-Intrusive Load Monitoring by Load Trajectory and Multi-Feature Based on DCNN

Publisher: IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICSDate: OCTOBER 2023Author and affiliation: Hui Yin, Kaile Zhou, and Shanlin Yang are with the School of Management, Hefei University of Technologythis article proposes a novel NILM framework with power l

2023-12-20 07:44:30 894

原创 Dropout 作用

Dropout出现的原因训练深度神经网络的时候，总是会遇到两大问题：（1）容易过拟合（2）网络费时在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。Dropout可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。过拟合是很多机器学习的通病。如果模型过拟合，那么得到的模型几乎不能用。

2023-11-23 09:45:02 727

原创自监督学习self-supervised learning 概述

深度学习被分为：监督学习，无监督学习和自监督学习。监督学习近些年获得了巨大的成功，但是有如下的缺点：1.人工标签相对数据来说本身是稀疏的，蕴含的信息不如数据内容丰富；2.监督学习只能学到特定任务的知识，不是通用知识，一般难以直接迁移到其他任务中。无监督学习算法的结果可能不太准确,因为输入数据没有标记,并且算法事先不知道确切的输出。由于这些原因，自监督学习的发展被给予厚望。自监督学习（Self-Supervised Learning）是无监督学习里面的一种，也被称作(pretext task)

2023-11-22 10:21:11 4306

原创神经网络中BN层简介及位置分析

Batch Normalization是深度学习中常用的技巧，Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (Ioffe and Szegedy, 2015) 第一次介绍了这个方法。这个方法的命名，明明是Standardization, 非要叫Normalization, 把本来就混用、意义不明的两个词更加搅得一团糟。

2023-11-21 15:57:26 2850 1

原创数据可视化PCA与t-SNE

PCA（主成分分析）和t-SNE（t分布随机近邻嵌入）都是降维技术，可以用于数据的可视化和特征提取。降维主要可以分为线性降维和非线性降维PCA（Principle Components Analysis，主成分分析）SNE（Stochastic Neighbor Embedding，随机近邻嵌入），t-SNE是基于SNE的。

2023-11-08 15:05:09 2657

原创常用评价指标及方法（以NILM及SV为例）

预测时当然希望Precision和Recall都保持一个较高的水准，但事实上这两者在某些情况下是有矛盾的。比如在极端情况下，倘若只搜索出了一个结果，且是正确的，那么Precision就是100%，但是Recall就很低；而如果把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高，此时可以引出另一个评价指标 F1-Score(F-Measure)。

2023-11-07 15:17:12 655

原创 CAM模型可视化（可解释）

模型的可解释性问题一直是个关注的热点。注意，本文所说的“解释”，与我们日常说的“解释”内涵不一样：例如我们给孩子一张猫的图片，让他解释为什么这是一只猫，孩子会说因为它有尖耳朵、胡须等。而我们让CNN模型解释为什么将这张图片的分类结果为猫，只是让它标出是通过图片的哪些像素作出判断的。（严格来说，这样不能说明模型是否真正学到了我们人类所理解的“特征”，因为模型所学习到的特征本来就和人类的认知有很大区别。

2023-11-04 14:07:24 3310 1

原创傅里叶分析和小波分析

从傅里叶变换到小波变换，并不是一个完全抽象的东西，可以讲得很形象。小波变换有着明确的物理意义，如果我们从它的提出时所面对的问题看起，可以整理出非常清晰的思路。下面我就按照傅里叶-->短时傅里叶变换-->小波变换的顺序，讲一下为什么会出现小波这个东西、小波究竟是怎样的思路。

2023-11-02 23:03:01 3237 2

原创 L1和L2正则化通俗理解

机器学习中，如果参数过多，模型过于复杂，容易造成过拟合（overfit）。即模型在训练样本数据上表现的很好，但在实际测试样本上表现的较差，不具备良好的泛化能力。为了避免过拟合，最常用的一种方法是使用使用正则化，例如 L1 和 L2 正则化。

2023-11-02 15:43:36 5513 1

原创 MFA-Conformer

本文由清华大学与腾讯科技（北京）有限公司、台湾大学及香港中文大学合作。提出了一种基于Conformer的多尺度特征融合的说话人识别模型（MFA-Conformer），通过融合各层不同尺度的特征，增强说话人特征的表征能力。实验表明，与目前主流的声纹识别网络ECAPA-TDNN相比，本文所提出的MFA-Conformer在识别性能和推理速度上都有大幅提升。该工作在腾讯科技有限公司的合作业务部门落地上线，新模型上线后实现了业务准确率20-40个点的巨大提升节省线上服务资源30%。

2023-10-27 16:52:01 634

原创相似度计算方法

余弦相似度（Cosine Similarity）是n维空间中两个n维向量之间角度的余弦。它等于两个向量的点积（向量积）除以两个向量长度（或大小）的乘积。

2023-10-27 14:28:57 892

原创 RawNet 1-3 介绍

出自会议：INTERSPEECH 2019.代码：https://github.com/Jungjee/RawNet.））出自会议：INTERSPEECH 2020.代码：vailable at https://github. com/Jungjee/RawNet.)）出自会议：INTERSPEECH 2022.代码：https://github.com/Jungjee/ RawNet and https://github.com/clovaai/voxceleb_ trainer.)

2023-10-26 15:45:22 1860

原创目标函数（Objective Function）、损失函数（Loss Function）与代价函数（Cost Function）

损失函数（Loss Function）指在单个样本上的损失，代价函数（Cost Function）指在整个集合上所有样本损失的平均值，目标函数（Objective Function）指整体优化目标，可能包含额外的正则化项。代价函数（Cost Function）和损失函数（Loss Function）通常是一个意思，但有些作者对两者做出了明显的区分：损失函数的计算目标是单个样本 x，而代价函数的计算目标是一组样本。因此，大部分距离度量函数都能够作为损失函数，而选择不同的损失函数也有各自的优缺点。

2023-10-26 11:13:17 4702

原创 ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention

论文单位：阿里巴巴集团，南洋理工大学核心内容：ACA-Net是一种轻量级的基于全局上下文感知信息和说话人特征的说话人辨识模型。ACA-Net利用非对称交叉注意力机制 (Asymmetric Cross Attention，即 ACA) 来代替常用的时间池化层，模型示意图见下图。ACA能够通过对key和value 大矩阵进行快速查询，将可变长度序列提取为较小的固定大小的隐层序列。

2023-10-25 22:02:41 171

原创 An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification

论文题目：An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification论文单位：阿里巴巴集团，中国科学技术大学核心内容：有效融合多尺度特征对于提高说话人识别性能至关重要。现有的大多数方法通过简单的操作，如特征求和或拼接，并采用逐层聚合的方式获取多尺度特征。本文提出了一种新的架构，称为增强式Res2Net（ERes2Net），通过局部和全局特征融合提高说话人识别性能。

2023-10-24 17:55:48 1022

原创 Transformer详解学习

拼接相加都可以，只是本身词向量的维度512维就已经蛮大了，再拼接一个512维的位置向量，变成1024维，这样训练起来会相对慢一些，影响效率。两者的效果是差不多地，既然效果差不多当然是选择学习习难度较小的相加了。Transformer 的 Decoder的输入与Encoder的输出处理方法步骤是一样地，一个接受source数据，一个接受target数据，对应到上面例子里面就是：Encoder接受英文"Tom chase Jerry"，Decoder接受中文"汤姆追逐杰瑞"。

2023-10-24 13:56:48 522

原创 Attention 机制

上图不再只有一个单一的语义编码C，而是有多个C1,C2,C3这样的编码。当我们在预测Y1时，可能Y1的注意力是放在C1上，那咱们就用C1作为语义编码，当预测Y2时，Y2的注意力集中在C2上，那咱们就用C2作为语义编码，以此类推，就模拟了人类的注意力机制。那么现在只剩下一个问题就是怎么计算出C1，C2，C3…Cn呢？如何判断我每次在做解码的时候注意力应该放在哪个位置呢？

2023-10-24 10:40:16 123

原创 LSTM 与 GRU

RNN无法处理长距离依赖问题，通俗点就是不能处理一些较长的序列数据，那么今天就来介绍一下两个能处理长距离依赖问题地RNN变种结构，LSTM和GRU。

2023-10-23 23:45:32 804

原创循环神经网络(Recurrent Neural Network)

上图是一幅全连接神经网络图，我们可以看到输入层-隐藏层-输出层，他们每一层之间是相互独立地，(框框里面代表同一层)，每一次输入生成一个节点，同一层中每个节点之间又相互独立的话，那么我们每一次的输入其实跟前面的输入是没有关系地。这样在某一些任务中便不能很好的处理序列信息。什么是序列信息呢？通俗理解就是一段连续的信息，前后信息之间是有关系地，必须将不同时刻的信息放在一起理解。比如一句话，虽然可以拆分成多个词语，但是需要将这些词语连起来理解才能得到一句话的意思。

2023-10-23 22:38:35 827 1

原创论文阅读：ECAPA-TDNN

TDNN本质上是1维卷积，而且常常是1维膨胀卷积，这样的一种结构非常注重context，也就是上下文信息，具体而言，是在frame-level的变换中，更多地利用相邻frame的信息，甚至跳过t − 1 , t + 1 的frame，而去对t − 2 , t + 2 的frame进行连接在ECAPA-TDNN中，更是进一步利用了膨胀卷积，出现了 dilation=2,3,4的情况。此外，还引入了Res2Net，从而获得了多尺度的context，所谓多尺度，指的是各种大小的感受野代码实现。

2023-10-13 20:30:45 3122

原创 TDNN方法学习

输入：每个特征图表示一帧，特征图的通道数为24，表示一帧的特征数（原文是24维fbank特征），特征图的分辨率是1，在这里需要明确：语音是1维数据，因此特征图并不是二维图，而是一个值，24个特征图堆叠起来构成24维fbank特征。其中，dilation=1表示标准卷积，frame2的膨胀卷积需要设置dilation=2。x-vector的网络结构。

2023-10-12 08:46:45 507

原创 Fbank及MFCC学习

Fbank：FilterBank：人耳对声音频谱的响应是非线性的，Fbank就是一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。获得语音信号的fbank特征的一般步骤是：预加重、分帧、加窗、短时傅里叶变换（STFT）、mel滤波、去均值等。对fbank做离散余弦变换（DCT）即可获得mfcc特征。MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。

2023-10-12 08:44:45 1887 1

原创 Wespeaker框架训练（2）

数据集处理完毕后开始训练，主要是调用wespeaker/bin/train.py 函数在train.py中输入参数：包括conf\config.yaml文件，也可以是外部设定的参数内容（如run.sh中定义外部参数config = conf/campplus.yaml）campplus.yaml文件中又对训练epoch，间隔，保存记录，输出路径等参数进行了设定。具体后续对模型训练参数修改就在具体的模型.yaml文件中进行设定。临时的修改可以在run.sh中进行修改。

2023-09-26 14:00:45 534

原创 Wespeaker框架训练（1）

进入wespeaker目录文件/home/username/wespeaker/examples/voxceleb/v2对run.sh文件进行编辑vim run.sh可以看到run.sh里面的配置内容在运行run.sh 时的起始stage 和结束stage，默认两个都设置为-1raw 格式的音频未经过分片、拆分，就是原本下载解压后的文件，训练时只能逐个读取音频，适用于数据集较小时；

2023-09-25 22:10:50 1194 1

原创 Linux Docker容器配置

e 环境设置这里NVIDIA_DRIVER_CAPABILITIES主要保证容器里能够查看并且使用显卡。之后可以通过ssh，登录IP，端口号6667,账号root，密码登录即可。--restart always 重启启动。--gpus all 选择所有gpu。-v 目录映射（宿主机：容器内）-p 端口映射（宿主机：容器内）--hostname 主机名称。--shm-size 共享内存。查看显卡是否在容器内运行正常。需要等待较长时间1-2小时。--name 容器名称。输入登录密码并确认。

2023-09-13 20:35:31 452 1

原创 CSI Tool 安装及配置记录

csi tool

2023-02-13 10:44:13 2741 1

原创声纹识别与声源定位（二）

声源定位

2023-01-11 21:36:22 8232 3

原创声纹识别与声源定位（一）

声纹识别及算法

2023-01-11 21:35:39 3937

原创 WiFi 运动，心跳，跌倒监测 (一)

WiFi 运动，心跳，跌倒监测

2022-11-08 00:24:46 1310

原创论文：Real-Time Radar-Based GestureDetection and Recognition Builtin an Edge-Computing Platform（Sensor）

论文阅读：Real-Time Radar-Based GestureDetection and Recognition Builtin an Edge-Computing Platform （IEEE SENSORS, 2020）

2022-10-02 22:30:11 532

转载模拟地与数字地、磁珠、电感(转)

简单来说，数字地是数字电路部分的公共基准端，即数字电压信号的基准端；模拟地是模拟电路部分的公共基准端，模拟信号的电压基准端（零电位点）。一、分为数字地和模拟地的原因：由于数字信号一般为矩形波，带有大量的谐波。如果电路板中的数字地与模拟地没有从接入点分开，数字信号中的谐波很容易会干扰到模拟信号的波形。当模拟信号为高频或强电信号时，也会影响到数字电路的正常工作。模拟电路涉及弱小信号，但...

2019-08-09 11:46:58 694 1

原创 BQ25504芯片解析

根据TI官网给的关于BQ25504这款芯片的主要特性，总结可以分为以下三点bq25504 器件可以用于智能集成能量采集毫微功耗管理，适合超低功耗应用。其设计始于仅需微瓦功率即可开始工作的 DC-DC 升压转换器/充电器。可对光伏（太阳能）发电机或热电发电机等各类直流源中生成的微瓦 (µW) 到毫瓦 (mW) 级功率进行采集和管理。bq25504 在同类器件中率先实现了针对具有严格电源和运行要求...

2018-08-19 12:43:23 13298

空空如也

空空如也