自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Speech Synthesis/Text to Speech(TTS)

Speech Synthesis主要介绍了Tacotron

2025-05-26 21:46:50 376

原创 Voice Conversion语音转换

语音转换相关基础模型,包括生成对抗,特征解耦

2025-05-26 20:43:03 802

原创 Language Model

语言模型(Language Model, LM)是用于的工具,通常在模型输出文本时非常有用。

2025-05-26 17:30:06 505

原创 Speech Recognition

语音识别的经典模型

2025-05-26 16:45:09 897

原创 Token and Acoustic feature

对自然语言处理的Token以及Acoustic Feature的介绍,还介绍了deepseek等现流行模型的token

2025-05-26 15:10:33 631

原创 Fusion的类型及优缺点

在自然语言处理(NLP)中,Fusion(融合)技术通常指将不同模型或组件的输出或表示进行结合,以提升整体性能。本文介绍了Shallow Fusion、Deep Fusion和Cold Fusion的定义及其优缺点

2025-05-26 11:41:04 647

原创 自回归(Autoregression)是什么?在大语言模型中自回归的应用

自回归(Autoregression)是什么?在大语言模型中自回归的应用

2025-04-07 10:50:36 2147

原创 位置编码(Positional Encoding, PE)的作用

它是Transformer等非序列模型的必备组件,直接影响模型对上下文的理解能力。在神经网络(尤其是Transformer、RNN等序列模型)中,位置编码(Positional Encoding, PE)的作用是为模型提供序列中元素的位置信息,以弥补模型本身对顺序感知的不足。序列数据的无序性问题: 像Transformer这样的模型依赖自注意力机制,其本质是“词袋(Bag-of-Words)”模型,无法自动感知输入元素的顺序。在语音合成中,音素的时序关系直接影响发音的自然性(如音节顺序错误会导致乱码)。

2025-04-03 17:57:23 397

原创 在网络中加入预训练的多层感知机(MLP)有什么作用?

1. 特征融合与迁移学习:预训练的MLP可以作为特征提取器,将原始输入(如文本、语音参数、图像等)映射到更高层次、更具判别性的特征空间。在网络中加入预训练的多层感知机(MLP)通常是为了引入先验知识、提升特征表示能力或dropout,具体作用取决于MLP的设计和预训练任务。在语音合成(TTS)中,预训练MLP可以将文本特征(如音素、词性)转换为更鲁棒的语言表示,再输入到主模型(如Transformer或Diffusion模型)。因为是随机的,只要训练次数足够多,神经元被选中训练的次数应该是相等的。

2025-04-03 17:52:19 467

原创 HMM在参数合成法(Parametric Synthesis)的缺点分析

HMM的马尔可夫假设确实是参数合成法难以处理长时信息的关键原因,但其他因素(如过平滑、上下文限制、参数误差)也共同导致了其合成语音不够自然。HMM生成的参数轨迹(如基频、频谱)倾向于过度平滑,导致合成的语音缺乏自然性和表现力。参数合成法(Parametric Synthesis)在语音合成中通常依赖于隐马尔可夫模型(HMM)或类似的统计模型来生成语音参数(如基频、频谱包络等)。例如,句子级别的语调轮廓(prosody)需要跨越多个音素甚至单词的上下文信息,而HMM难以有效建模这种跨帧的长时关系。

2025-04-03 17:41:36 543

原创 ResNet(残差网络)中的残差是什么?

假设输入为 x ,某一层的期望输出为 H(x) ,则网络改为学习残差 F(x) = H(x) - x,而原始输出可通过 H(x) = F(x) + x 重构。简化优化问题:学习残差 F(x) 比直接学习 H(x) 更容易(尤其是当 H(x) 约等于x 时,残差趋近零)。ResNet只需拟合 F(x) = 1 ,而 H(x) = F(x) + x = 1 + x。ResNet:拟合残差 F(x) = H(x) - x (简单映射,通常 F(x) 接近零)。传统网络:直接拟合 H(x)(复杂映射)。

2025-03-28 17:40:35 830

原创 Normalization(归一化)的类型

Normalization(归一化)是一种将数据转换到特定范围或分布的技术,旨在提升模型训练效果和收敛速度。常见的归一化方法包括 Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization 和 Weight Normalization 等。

2025-03-24 14:00:42 946

原创 噪声的类型

图像处理中常见的噪声类型包括椒盐噪声、高斯噪声、泊松噪声、均匀噪声、指数噪声、脉冲噪声、周期性噪声和量化噪声。每种噪声都有不同的表现形式和成因,理解这些噪声有助于选择合适的去噪方法。3. 泊松噪声 (Poisson Noise):由于光子计数过程的随机性引起的噪声,常见于低光条件下的图像。6. 脉冲噪声 (Impulse Noise):随机出现的极值像素点,类似于椒盐噪声,但不限于黑白像素。8. 量化噪声 (Quantization Noise):由于像素值量化过程中的舍入误差引起的噪声。

2025-03-21 16:26:02 1086

原创 粗粒度和细粒度指的是什么?

2. 细粒度 (Fine-grained):处理较小、较简单的数据单元,操作范围窄,细节较多。分布式系统:如函数即服务(FaaS),每个函数执行简单任务。较少的交互:系统或组件间的交互次数少,每次交互的信息量大。粗粒度:适合处理大块数据或复杂任务,操作次数少,交互简单。细粒度:适合处理小块数据或简单任务,操作次数多,交互频繁。较多的交互:系统或组件间的交互频繁,每次交互的信息量小。较低的操作频率:操作次数少,但每次处理的数据量大。较高的操作频率:操作次数多,每次处理的数据量小。

2025-03-17 19:20:58 1710

原创 情感识别(Emotion Recognition)

情感识别(Emotion Recognition)是通过分析人类的多模态数据(如面部表情、语音、文本等)来识别和理解其情感状态的技术。情感识别通过分析面部表情、语音、文本和生理信号等数据来识别情感状态,主要方法包括基于面部表情、语音、文本、生理信号和多模态的情感识别。这些方法在多个领域有广泛应用。传统方法:使用词袋模型、TF-IDF等特征提取方法,结合分类器(如朴素贝叶斯、SVM)。方法:结合多种模态数据(如面部表情、语音、文本等)进行情感识别。方法:通过分析语音信号(如音调、语速、音量等)来识别情感。

2025-03-11 20:22:00 994

原创 图像的特征

局部区域特征:如HOG(方向梯度直方图)描述局部形状和纹理。卷积神经网络(CNN)特征:通过深度学习提取的高层次特征。局部二值模式(LBP):通过局部像素的灰度变化表示纹理。颜色矩:通过颜色的均值、方差等统计量表示颜色分布。灰度共生矩阵(GLCM):描述像素间的灰度关系。关键点:如SIFT、SURF等算法提取的关键点。兴趣区域(ROI):图像中具有特定意义的区域。角点:如Harris角点检测提取的角点。场景描述:如室内、室外、自然景观等。直方图:描述图像中颜色的分布。光流:描述像素的运动信息。

2025-03-10 21:53:18 593

原创 Speech Recognition相关模型

speech recognition相关模型包括LAS,CTC,RNA,RNN-T,Neural transducer,Mocha

2025-03-10 11:46:06 147

原创 Teacher Forcing

Teacher Forcing是一种用于训练序列生成模型(如RNN、LSTM、GRU或Transformer)的技术,尤其在Seq2Seq模型中广泛应用。它的核心思想是在训练时使用真实标签(ground truth)作为解码器的输入,而不是依赖模型前一时刻的输出。

2025-03-03 10:58:33 913

原创 残差连接(Residual Connection)

1. 缓解梯度消失:深层网络中,梯度反向传播时可能逐渐变小,导致参数更新困难。残差连接提供了捷径,使梯度能够直接回传,缓解了这一问题。残差连接(Residual Connection)是深度学习中一种用于缓解梯度消失和网络退化问题的技术,尤其在深层网络中应用广泛。残差连接通过将输入直接传递到后面的层,使得网络能够学习输入与输出之间的残差(即差异),而不是直接学习输出。残差连接允许网络跳过某些层,保持或提升性能。残差连接在ResNet(残差网络)中首次提出,并广泛应用于计算机视觉、自然语言处理等领域。

2025-03-01 17:19:51 1490

原创 微调(Fine-tuning)

微调(Fine-tuning)是自然语言处理(NLP)和深度学习中的一种常见技术,用于将预训练模型(Pre-trained Model)适配到特定任务上。它的核心思想是:在预训练模型的基础上,通过少量任务相关的数据进一步训练模型,使其更好地适应目标任务。

2025-02-28 14:44:26 586

原创 提示学习(Prompting)

Prompting 是一种利用预训练模型的方法,通过设计提示模板将任务转化为模型能够理解的形式。它的优势在于高效、灵活,且不需要额外参数。适用场景广泛,包括分类、生成、问答等任务。

2025-02-27 16:47:01 1262

原创 Wasserstein 距离(Wasserstein Distance)

Wasserstein 距离(Wasserstein Distance),也称为Earth Mover's Distance(EMD),是一种用于衡量两个概率分布之间差异的度量方法。它起源于最优传输理论,描述了将一个分布“搬移”成另一个分布所需的最小“工作量”。

2025-02-26 20:57:11 3322

原创 生成对抗网络(GAN)

生成对抗网络是一种深度学习模型,由 Ian Goodfellow 等人在 2014 年提出。GAN由生成器和判别器组成,生成器生成假数据,判别器区分真假数据。两者通过对抗训练不断提升,最终生成器能够生成逼真的数据。GAN的训练过程类似于博弈论中的零和游戏。

2025-02-26 20:43:45 1227

原创 Transformer

(2)多头注意力(Multi-Head Attention):为了捕捉不同子空间的信息,Transformer 使用多个注意力头,每个头独立计算注意力,最后将结果拼接并线性变换。(3)位置编码(Positional Encoding):由于 Transformer 没有循环或卷积结构,无法直接捕捉序列顺序,因此通过位置编码为输入序列添加位置信息。(5)前馈神经网络(Feed-Forward Neural Network):每个编码器和解码器层包含一个前馈神经网络,对每个位置的表示进行非线性变换。

2025-02-26 19:37:24 235

原创 循环神经网络(RNN)

RNN用于处理序列数据,如时间序列、文本等。RNN的神经元具有记忆功能,能够保存之前时间步的信息,从而捕捉序列中的依赖关系。但RNN存在梯度消失和梯度爆炸问题。

2025-02-25 16:45:35 760

原创 自编码器(Autoencoders)

自编码器由编码器和解码器组成,编码器将输入数据压缩为低维表示,解码器将其还原为原始数据。通过训练,自编码器能够学习数据的有效表示,常用于降维和特征提取。相比于独立模型,它的输入输出更灵活,且可以在输入完成后在完成解码。

2025-02-24 21:36:53 973

原创 卷积神经网络(CNN)

CNN是专门用于处理图像和视频数据的神经网络。它通过卷积层提取局部特征,池化层降低数据维度,全连接层进行分类。卷积层使用卷积核在输入数据上滑动,提取空间特征。

2025-02-24 15:21:36 1346

原创 传统注意力机制与自注意力机制

传统注意力机制是如何计算的,自注意力机制的原理

2025-02-24 10:34:50 1411

原创 神经网络(Neural Network)

神经网络基础知识

2025-02-23 15:13:11 237

原创 多模态情感分析

通过对各个模态的特征进行提取,再进行有效融合,从而更加全面、直观地关注多个模态的情感信息,更加精准地进行情感倾向预测。3. 补充和验证信息:不同模态的信息可以互相补充,例如,文本内容可能是积极的,而音频可能是消极的,多模态分析可以通过这种不一致性更准确地判断情感状态。3. 模态融合:将不同模态的特征进行融合,这可以是早期融合(在特征层级)、中期融合(在决策层级)或晚期融合(在决策后层级)。2. 提高预测精度:与单模态情感分析相比,多模态数据包含多样化的情感信息,具有更高的预测精度。

2025-02-21 20:16:52 805

原创 概率图模型以及聚类降维模型

概率图模型以及聚类降维模型

2025-02-21 20:14:40 398

原创 机器学习的基础模型总结

机器学习基础模型推导

2025-02-20 20:19:17 593

原创 人工智能学科框架

人工智能的核心领域包含机器学习(Machine Learning)、自然语言处理(Natural Language Processing, NLP)、计算机视觉(Computer Vision)、机器人学(Robotics)、知识表示与推理(Knowledge Representation and Reasoning, KRR)等。

2025-02-19 11:48:25 1255

原创 机器学习的模型类型(Model Types)

机器学习的常见模型类型

2025-02-18 10:54:10 2836

原创 GRU是什么?GRU对LSTM做了哪些改动?

GRU的更新门控制了前一时刻的状态向当前时刻的状态的更新程度,重置门控制了前一时刻的状态对当前时刻的输入的重置程度。3. 简化了计算流程:LSTM需要计算三个门控单元和一个细胞状态,而GRU只需要计算两个门控单元和一个状态向量,从而简化了计算流程,降低了计算复杂度。2. 合并了细胞状态和隐藏状态:LSTM中有一个细胞状态和一个隐藏状态,而GRU将它们合并为一个状态向量,从而减少了参数数量。4. 提高了训练速度:由于参数数量减少、计算流程简化,GRU在训练时相比LSTM具有更快的训练速度。

2025-02-17 15:09:32 509

原创 如何解决RNN梯度爆炸和弥散的问题

相比于tanh或sigmoid,ReLU激活函数(及其变种如Leaky ReLU)在正区间内梯度恒定,这有助于缓解梯度爆炸问题。LSTM和GRU是RNN的变体,它们通过引入门控机制来控制信息的流动,这有助于解决梯度弥散问题。LSTM的遗忘门和GRU的更新门可以有选择性地保留或遗忘信息,从而减少梯度的衰减。在处理非常长的序列时,可以截断序列到一个合理的长度,以减少梯度在时间步上的累积。注意力机制可以帮助模型集中关注序列中的重要部分,减少对长距离依赖的敏感性,从而缓解梯度弥散问题。

2025-02-17 15:07:42 534

原创 为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?这样做的目的是什么?

这些门控需要决定信息是否通过,sigmoid的输出恰好可以表示这种概率或比例。在LSTM中,tanh用于初始化细胞状态的候选值(Candidate Values),以及最终的细胞状态和隐藏状态的计算。LSTM模型中使用sigmoid和tanh两种激活函数是为了满足模型中不同部分的需求,这种设计使得LSTM能够有效地处理序列数据中的长期依赖问题,并且在各种序列任务中表现出色。Sigmoid函数的输出范围是(0, 1),它非常适合用于门控机制,因为门控需要一个介于0和1之间的值来表示“开启”或“关闭”的程度。

2025-02-17 15:06:04 893

原创 机器学习的学习范式(Learning Paradigms)

机器学习的学习范式(Learning Paradigms)是指机器学习模型从数据中学习的方式和目标。

2025-02-17 15:03:45 2046

原创 LSTM结构推导,为什么比RNN好

4. 控制信息流动:LSTM中,输入门、输出门控制着新信息的流入和旧信息的输出,使得对信息的处理更加精细,而RNN使用固定的激活函数来控制信息的流入流出,可能会导致信息在传递过程中失真或丢失。3. 信息保留与更新:LSTM的遗忘门可以有选择性地保留或遗忘信息,提高了信息流的质量,而RNN由于缺少专门的遗忘机制,网络难以有选择性地忘记不再相关的信息。2. 记忆能力:LSTM中的记忆单元细胞状态和三个门控结构,可以更细致地控制信息的保留与丢弃,提高了长期依赖的处理能力。记忆的形成,编码,存储,巩固,检索。

2025-01-15 20:41:52 871

原创 贝叶斯网络(Bayesian Network)和马尔可夫随机场(Markov Random Field,MRF)

马尔可夫性假设在给定某个节点的邻居(即与之相连的节点)的条件下,节点的状态与其其他不相邻的节点条件独立。节点之间的有向边表示一种方向性的条件依赖,意思是某个节点的状态依赖于它的父节点(即直接前置节点)。贝叶斯网络的条件独立性是通过图的结构明确表示的。贝叶斯网络(Bayesian Network)和马尔可夫随机场(Markov Random Field,MRF)是两种常见的图模型,它们在结构和推理方面有一些显著的区别。节点的依赖性是有方向的,意味着某个节点的值可能影响另一个节点的值,这种影响是单向的。

2025-01-02 21:19:21 679

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除