没用的阿鸡-CSDN博客

原创自监督表征学习方法——DINO方法

在这项工作中，我们展示了自监督预训练一个标准ViT模型的潜力，实现的性能是与为此设置设计的最佳凸网相媲美的。我们还看到了两个可以在未来应用中利用的特性：k-NN分类中特征的质量具有图像检索的潜力，其中ViT已经显示出了有希望的结果。然而，本文的主要结果是，我们有证据表明，自我监督学习可能是开发一个基于的bert样模型的关键ViT。我们将我们的发现实现到一个简单的自我监督的方法中，称为DINO，我们将其解释为一种没有标签的自蒸馏形式。在上面，我们展示了经过监督和DINO训练的ViT-S/8的结果口罩。

2023-03-14 17:03:18 3590 1

原创单通道说话人语音分离——DPRNN(Dual-Path Recurrent Neural Network)

近年来，基于深度学习的语音分离的研究证明了时域方法优于传统的基于时频的方法。与时频域方法不同，时域分离系统通常接收由大量时间步长组成的输入序列，这给极长序列的建模带来了挑战。传统的递归神经网络（RNNs）由于优化困难，对如此长的序列建模无效，而一维卷积神经网络（一维CNNs）在其接受域小于序列长度时，无法进行话语级序列建模。

2023-02-28 15:22:07 1504

原创单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

在真实的声学环境中，鲁棒的语音处理通常需要自动的语音分离。由于这一研究课题对语音处理技术的重要性，人们已经提出了许多方法来解决这一问题。然而，语音分离的准确性，特别是对新演讲者，仍然不够。

2023-02-23 10:14:48 4749 6

原创自监督表征学习方法——BYOL(Bootstrap Your Own Latent)

学习良好的图像表示是计算机视觉中的一个关键挑战，因为它允许对下游任务进行有效的训练。许多不同的训练方法被提出来学习这种表征，通常依赖于视觉借口任务。其中，最先进的对比方法是通过减少同一图像的不同增强视图的表示之间的距离和增加来自不同图像的增强视图的表示（负对）之间的距离来训练的。这些方法需要仔细处理负对，通过依赖大批量、内存库或定制的挖掘策略来检索负对。此外，它们的性能严重取决于图像增强的选择。

2023-02-13 14:18:45 1611

原创自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

在这项工作中，主要研究了听的方面，即音频识别方面，如Audioset(规模最大的音频数据集)，环境声识别(ESC-50)，语音指令识别(SPC-2, SPC-1)，说话人识别(VoxCeleb)。

2023-01-12 22:25:22 2082

原创深度聚类方法之跨实例引导的对比聚类(Cross-instance guided Contrastive Clustering,C3)

该方法是在对比聚类(Contrastive Clustering,CC)上面的改进。

2023-01-11 21:38:01 831

原创深度聚类方法之对比聚类(Contrastive Clustering,CC)

对比聚类，该方法是既可以分阶段，也可以端到端，同时也是在线学习的。

2023-01-10 21:43:35 3154

原创无监督聚类表征学习方法之对比学习(Contrastive Learning)——simclr方法

对比学习是一种自监督学习方法，用于在没有标签的情况下，通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。

2023-01-09 20:29:57 758

原创在pytorch上利用GAN网络实现0-9数字生成

数据集来自torchvision的dataset的MNIST手写0-9数据集(28x28)生成器（Generator）和判别器（Discriminator）

2022-11-24 13:12:21 756

原创统计学习方法——第10章隐马尔可夫模型（个人笔记）

统计学习方法——第10章隐马尔可夫模型（个人笔记）参考《统计学习方法》（第二版）李航10.1 隐马尔可夫模型的基本概念10.1.1 隐马尔可夫模型的定义定义10.1（隐马尔可夫模型）隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列，称为状态序列（state sequence）；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列（observat

2022-05-23 15:14:42 272

原创统计学习方法——第9章 EM算法及其推广（个人笔记）

统计学习方法——第9章 EM算法及其推广（个人笔记）参考《统计学习方法》（第二版）李航EM算法是一种迭代算法，每次迭代由两步完成：E步，求期望；M步，求极大。9.1 EM算法的引入概率模型有观测变量，又含有隐变量或潜在变量。EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。9.1.1 EM算法例子（三硬币模型）假设有三枚硬币，分别记作A，B，C，这些硬币正面出现的概率分别是。进行如下掷硬币实验：先掷硬币A，根据其结果选出硬币B或C，正面选B，反面

2022-05-16 15:34:42 335

原创统计学习方法——第8章提升方法（个人笔记）

统计学习方法——第8章提升方法（个人笔记）参考《统计学习方法》（第二版）李航8.1 提升方法AdaBoost算法8.1.1 提升方法的基本思路基本思想：对于一个复杂任务，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。最具代表性的是AdaBoost算法。对于分类问题，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确地分类规则（强分类器）容易的多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（又称为基本分类器），然后组合这些弱

2022-05-09 15:07:50 420

原创统计学习方法——第7章支持向量机（个人笔记）

统计学习方法——第7章支持向量机（个人笔记）参考《统计学习方法》（第二版）李航支持向量机（support vector machines，SVM）是一种二分类模型，是定义在特征空间上的间隔最大的线性分类器。间隔最大使他有别于感知机。7.1 线性可分支持向量机与硬间隔最大化7.1.1 线性可分支持向量机一般来说，当训练数据集线性可分时，存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略，求得分离超平面，不过解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离

2022-04-30 09:10:43 763

原创统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记）

统计学习方法——第6章逻辑斯谛回归与最大熵模型（个人笔记）参考《统计学习方法》（第二版）李航逻辑斯谛回归模型与最大熵模型都属于对数线性模型。6.1 逻辑斯谛回归模型6.1.1 逻辑斯谛分布定义6.1 （逻辑斯谛分布）设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：其中，为位置参数，为形状参数。6.1.2 二项逻辑斯谛回归模型定义6.2 （逻辑斯谛回归模型）二项逻辑斯谛回归模型条件概率分布如下：其中，Y是输出，w为权重.

2022-04-18 14:19:15 334

原创统计学习方法——第5章决策树（个人笔记）

统计学习方法——第5章决策树（个人笔记）参考《统计学习方法》（第二版）李航决策树的学习包括三个步骤：特征选择、决策树的生成、决策树的修剪。5.1 决策树模型与学习5.1.1 决策树模型决策树由结点和有向边组成。结点有两种类型：①内部结点：内部结点表示一个特征或属性。②叶节点：叶结点表示一个类。用决策树分类：从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征值的一个取值。如此递归下去，直至达到叶结点，最后，将

2022-04-14 11:16:25 1512

原创统计学习方法——第4章朴素贝叶斯法（个人笔记）

统计学习方法——第4章朴素贝叶斯法（个人笔记）参考《统计学习方法》（第二版）李航朴素贝叶斯法：基于贝叶斯定理与特征条件独立假设的分类方法。4.1 朴素贝叶斯法的学习与分类4.1.1 基本方法训练数据集先学习先验概率分布及条件概率分布先验概率分布条件概率分布这样学习到联合概率分布朴素贝叶斯法的条件概率分布假设条件相互独立的即条件独立性朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布，将后验概率最大的类作为x的类输出。后验

2022-04-06 21:42:34 630

原创统计学习方法——第3章 k近邻法（个人笔记）

统计学习方法——第3章 k近邻法（个人笔记）参考《统计学习方法》（第二版）李航3.1 k近邻算法定义：给定一个训练数据集，对新输入的实例，在训练数据集中找到与该实例最邻近的k个实例，在这k个实例，多数属于某个类别，就把该输入实例划分为这个类别。算法3.1：输入：训练数据集输出：实例所属的类（1）根据给定的距离度量，在训练集T中找出与最邻近的k个点，涵盖这k个点的的邻域记作;（2）在中根据分类决策规则决定的类别：其中，I为指示函数，即当是，I=1，否则，I=0。

2022-04-05 15:24:03 1219

原创统计学习方法——第2章感知机（个人笔记）

统计学习方法——第2章感知机（个人笔记）参考《统计学习方法》（第二版）李航感知机就是二分类的线性分类模型，输入为特征向量，输出只为+1、-1。2.1 感知机模型模型为：其中，为权重or权值，为偏置，为特征向量。为符号函数：假设感知机在二维平面，感知机可为线性方程：例图如下，感知机为超平面，为超平面的法向量，为超平面的截距。2.2 感知机学习策略2.2.1 数据集的线性可分性给定一个数据集：如果存在感知机模型（即为超平面S）使得数据.

2022-04-04 11:27:14 277

原创统计学习方法——第1章（个人笔记）

统计学习方法——第1章统计学习及监督学习概论《统计学习方法》（第二版）李航，学习笔记1.1 统计学习1.特点（1）以计算机及网络为平台，是建立在计算机及网络上的；（2）以数据为研究对象，是数据驱动的学科；（3）目的是对数据进行预测与分析（4）以方法为中心，构建模型并应用模型进行预测与分析；（5）是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论。2.对象就是数据3.目的对数据的预测和分

2022-04-03 11:32:41 2027

原创信号处理之最大似然估计（自学整理）

信号处理之最大似然估计（自学整理）最大似然估计基本思想：在对被估计的未知量（或参数）没有任何先验知识的情况下，利用已知的若干观测值估计该参数。因此，在使用最大似然估计方法时，被估计的参数假定是常数且未知，已知的观测数据则是随机变量。设随机变量x的N个观测值为设参数为θ，在给定参数θ情况下观测样本的联合条件概率密度函数为所以，似然函数就是最大似然估计就是求因此，最大似然估计也可以看做是似然函数的全局极大点。对数似然函数记为因此，θ的最大似然估计的优化条件是在一般条件下，

2021-12-04 11:06:49 4575

原创语音识别之声学模型知识（个人整理）

语音识别之声学模型知识（个人整理）声学模型声学模型使用高斯混合-隐马尔科夫模型（GMM-HMM），训练该模型的准则有：①早期的最大似然准则（ML）②中期的序列判别训练法（sequence hierarchical model）③目前广泛使用的基于深度学习的方法。未完待续...

2021-12-04 10:21:16 4817

原创语音识别之自动语音识别（ASR，Auto Speech Recognition）个人自学整理

语音识别之自动语音识别（ASR，Auto Speech Recognition）个人自学整理自动语音识别（ASR，Auto Speech Recognition）自动语音识别是机器把语音声波信号转化成文字，因人的物理器官位置不同可以发出不同的音，最小的发声单位称为音素，多个音素组成音节，若干音节组成字，机器识别的最小语音单位可以是音素、音节、字或词。基于Kaldi的传统语音识别有基于单音素和三音素模型的语音识别方法。另外还有Mozilla开源的基于DeepSpeech深度学习语音识别。传统语音识别

2021-12-03 17:03:59 4032

原创语音端点检测原理VAD——Voice Activity Detection(个人整理)

语音端点检测原理VAD——Voice Activity Detection(个人整理)语音端点检测：用于判断给定的音频数据是否存在语音，其常用语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的概率，VAD方法通常包括特征提取和语音/非语音判决两部分。当前使用的语音特征主要有时域和频域两种，时域特征：①能量波动；②过零率③最大能量④最小能量等。频域特征：①基频；②频谱组成；③频谱质心；④谱差；⑤谱密度；⑥谱衰减；用于VAD判决的特征通常可

2021-12-01 21:31:36 10932

原创 python简单用opencv打开摄像头并用yolov5模型进行物体检测

python使用yolov5进行物体识别1.GitHub代码yolov5：https://github.com/ultralytics/yolov52.环境准备pip install -r requirements.txt3.示例代码import torch# Modelmodel = torch.hub.load('ultralytics/yolov5', 'yolov5s') # or yolov5m, yolov5l, yolov5x, custom# Imagesimg

2021-09-03 19:20:53 12617 25

原创在python中用pyTorch搭建CNN神经网络实现数字（0~9）语音识别

在python中用pyTorch搭建CNN神经网络实现数字（0~9）语音识别1.收集训练数据speech_commands_v0.01.tar.gzhttp://download.tensorflow.org/data/speech_commands_v0.01.tar.gz自己用迅雷下载什么都行（推荐迅雷）2.准备环境①pycharm软件②cuda和cudnn（我的是11.3）③python（我的是3.9）④支持cuda的pytorch对于环境的准备，老样子，自己csdn查教程一大把。

2021-08-16 10:01:21 7336 34

原创用python实现基于PANN（retrained Audio Neural Networks）的声音检测方法

用python实现基于PANN的声音事件检测方法1.PANN国外论文：《PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition》在本文中，我们提出了在大规模音频集数据集上训练的预先训练的音频神经网络(PANNs)。这些面板被转移到其他与音频相关的任务中。我们研究了由各种卷积神经网络建模的粒子的性能和计算复杂度。我们提出了一种称为波图-Logmel-CNN的架构，使用Log-mel谱图和波形作为

2021-07-28 21:00:03 4849 10

原创用python实现语音端点检测(Voice Activity Detection,VAD)

用python实现语音端点检测(Voice Activity Detection,VAD)1.准备环境https://github.com/marsbroshok/VAD-python里面的vad.py文件2.具体代码from vad import VoiceActivityDetectorimport waveif __name__ == "__main__": load_file = "test.wav" save_file = "process.wav" # 获

2021-07-17 11:48:45 5710 6

原创如何用python画出语谱图（spectrogram）和mel谱图（mel spectrogram）

如何用python画出语谱图（spectrogram）和mel谱图（mel spectrogram）1.准备环境①python②libsora③matplotlibNotes：pip install 直接一步到位2.具体代码①语谱图（spectrogram）import librosaimport numpy as npimport matplotlib.pyplot as pltpath = "./test.wav"# sr=None声音保持原采样频率， mono=False声

2021-07-15 10:41:48 12442 6

原创 python中libsora没有display模块真正解决方法（0.8.1）

python中libsora没有display模块真正解决方法（0.8.1）python报错module ‘librosa’ has no attribute ‘display’import librosa.display网上各种卸载退版本回0.7.2的都是愚蠢的方法仔细看librosa的官方文档0.8.1是有display模块的...

2021-07-15 10:25:37 1300

原创 python实现Logmmse声音降噪算法

python实现Logmmse声音降噪算法1.所需环境pip install logmmsepip install wavepip install numpy2.具体代码import logmmseimport waveimport numpy as npif __name__ == '__main__': # out = logmmse.logmmse_from_file('B000_0000.wav') # print(out) # 读取音频 pa

2021-07-13 20:38:16 3605

原创凸优化之拟凸函数

拟凸函数1.定义2.性质函数f是拟凸函数的充要条件是：dom f 是凸集，且对于任意x,y属于dom f 及 0 ≤ θ ≤ 1,有3.可微拟凸函数4.保拟凸运算非负加权最大复合最小化

2021-07-07 19:13:23 459

原创凸优化之共轭函数

凸优化之共轭函数1.定义此函数称为f的共轭函数。2.基本性质Fenchel不等式共轭的共轭定义：f**=f可微函数定义：伸缩变换和复合仿射变换

2021-07-05 09:34:09 640

原创在python中用pyTorch实现数字（0~9）语音识别

基于python的数字（0~9）语音识别1.收集训练数据speech_commands_v0.01.tar.gzhttp://download.tensorflow.org/data/speech_commands_v0.01.tar.gz自己用迅雷下载什么都行（推荐迅雷）2.准备环境①pycharm软件②cuda和cudnn（我的是11.3）③python（我的是3.9）④支持cuda的pytorch对于环境的准备，老样子，自己csdn查教程一大把。推荐不要用conda，直接全pip

2021-07-03 09:44:30 8143 17

原创凸集函数之保持凸性的操作

保持凸性的操作（Operations that preserve convexity）1.非负的加权和（Nonnegative weighted sums）如果f是一个凸函数和α≥0，那么函数αf是凸的。如果f1和f2都是凸函数，那么它们的和就是f1+f2。结合非负尺度和加法，我们看到凸函数集本身就是一个凸锥：凸函数的一个非负加权和，是凸出的。同样地，凹函数的非负加权和也是凹的。严格凸（凹）函数的非负、非零加权和是严格凸（凹）的。这些性质可以扩展到无限和and积分。例如，如果f(x，y)的每个∈a

2021-06-29 11:18:07 1474

原创短时傅里叶变换原理及其MATLAB实现（Short Time Fourier Transform，STFT）

短时傅里叶变换原理及其MATLAB实现（Short Time Fourier Transform，STFT）1.短时Fourier变换原理（STFT原理）信号x(t)短时Fourier变换定义为：其中w(τ)为窗函数。X(ω,t)中的时间t表示窗函数w(τ−t)的位置，随着窗函数在整个区间上的滑动，可获得信号x(τ)在 t 附近区域上对应的频谱。信号短时Fourier变换是一种常用的信号时频分析方法。2.DFT中的STFT原理信号x(t)的STFT是一个积分运算，在实际计算中也可通过DFT来

2021-06-28 17:49:07 8801 3

原创凸集函数之基本属性和示例

凸函数（Convex functions）之基本属性和示例1.定义（Definition）如果dom f是一个凸集，那么函数f：Rn→R是凸的，如果对于所有x，y∈dom f和θ为0≤θ≤1，我们有几何上，该不等式表示（x、f(x)）和（y、f(y)）之间的线段，即x到y的弦。如果当x=y和0<θ<1中，严格不等式在上式中成立，则函数f是严格凸的。如果−f是凸的，则说f是凹的，如果−f是严格凸的，则说严格凹的。一个凸函数的图。图上任意两点之间的和弦（即线段）位于图的上方。2.扩展值

2021-06-26 16:29:39 3741

原创凸集之对偶锥和对偶广义不等式

凸集之对偶锥和对偶广义不等式1.对偶锥（Dual cones）设K是一个圆锥体。集合被称为K的对偶锥。正如顾名思义的，K∗是一个锥，并且总是凸的，即使原始的锥K不是凸的。几何上，y∈K∗当且仅当−y是在原点处支持K的超平面的法线。左图，向内法向y的半空间包含圆锥体K，所以y∈K∗。右图，向内法向z的半空间不包含K，所以z∉K∗。对偶锥满足几个性质，例如：①K∗是封闭的和凸的；②K1⊆K2意味着K2∗⊆K1∗；③如果K的内部为非空，则K∗是指向的；④如果K的闭合是指向的，那么K∗的内

2021-06-24 19:22:52 1788

原创凸集之分离与支撑超平面

分离与支撑超平面（Separating and supporting hyperplanes）1.分离超平面定理定理：假设C和D是两个不相交的凸集，即C∩D=∅。然后存在一个a≠0和b，这样aTx≤b用于所有x∈C，aTx≥b用于所有x∈D。换句话说，仿射函数aTx−b,在C上非正，在D上非负.超平面{x|aTx=b}称为分离C和D的分离超平面，或者称为分离C和D。如图所示，超平面{x|aTx=b}分离了不相交的凸集C和 D. 仿射函数aTx−b在C上非正，在C上非负 D.分离超平面定理的证明

2021-06-23 20:00:16 2587 1

原创凸集之广义不等式

凸集之广义不等式广义不等式（Generalized inequalities）1. 正锥体和广义不等式（Proper cones and generalized inequalities）（1）正锥体（Proper cones）定义：若K为正锥体应满足以下条件：①K是凸的；②K是闭合的；③K是固体的，这意味着它的内部是非空的。④K是指向的，这意味着它不包含线（或等价地，x∈K，−x∈K=⇒x=0）。一个正锥体K可以用来定义一个广义不等式，它是Rn上的部分排序，它具有R上标准顺序的许多性质

2021-06-22 22:29:15 1147 1

原创 MFCC（Mel-Frequency Cepstral Coefficients）特征

声音特征大全1. MFCC（Mel-Frequency Cepstral Coefficients）特征MFCC特征提取包含两个关键步骤：线性频谱转化到梅尔频率，然后进行倒谱分析。由来：梅尔（Mel）频率是由研究人员跟据人耳听觉机理提出，它与赫兹（Hz）频率成非线性对应关系。MFCC则利用两者之间的非线性关系，计算得到Hz频谱特征。当前MFCC已经广泛应用于语音数据特征提取和降低运算维度。由于Hz频率与Mel频率之间存在非线性的对应关系，使得当频率提高时，MFCC的计算精度随之下降。通常情况下，在应

2021-06-22 12:41:34 3204

c语言ffmpeg入门级qt项目

ffmpeg在Qt上实现采集摄像头并编码RTMP传输

python的opencv人脸识别

空空如也