路野yue-CSDN博客

它是Transformer等非序列模型的必备组件，直接影响模型对上下文的理解能力。在神经网络（尤其是Transformer、RNN等序列模型）中，位置编码（Positional Encoding, PE）的作用是为模型提供序列中元素的位置信息，以弥补模型本身对顺序感知的不足。序列数据的无序性问题：像Transformer这样的模型依赖自注意力机制，其本质是“词袋（Bag-of-Words）”模型，无法自动感知输入元素的顺序。在语音合成中，音素的时序关系直接影响发音的自然性（如音节顺序错误会导致乱码）。

2025-04-03 17:57:23 400

原创在网络中加入预训练的多层感知机（MLP）有什么作用？

1. 特征融合与迁移学习:预训练的MLP可以作为特征提取器，将原始输入（如文本、语音参数、图像等）映射到更高层次、更具判别性的特征空间。在网络中加入预训练的多层感知机（MLP）通常是为了引入先验知识、提升特征表示能力或dropout，具体作用取决于MLP的设计和预训练任务。在语音合成（TTS）中，预训练MLP可以将文本特征（如音素、词性）转换为更鲁棒的语言表示，再输入到主模型（如Transformer或Diffusion模型）。因为是随机的，只要训练次数足够多，神经元被选中训练的次数应该是相等的。

2025-04-03 17:52:19 475

原创 HMM在参数合成法（Parametric Synthesis）的缺点分析

HMM的马尔可夫假设确实是参数合成法难以处理长时信息的关键原因，但其他因素（如过平滑、上下文限制、参数误差）也共同导致了其合成语音不够自然。HMM生成的参数轨迹（如基频、频谱）倾向于过度平滑，导致合成的语音缺乏自然性和表现力。参数合成法（Parametric Synthesis）在语音合成中通常依赖于隐马尔可夫模型（HMM）或类似的统计模型来生成语音参数（如基频、频谱包络等）。例如，句子级别的语调轮廓（prosody）需要跨越多个音素甚至单词的上下文信息，而HMM难以有效建模这种跨帧的长时关系。

2025-04-03 17:41:36 544

原创 ResNet（残差网络）中的残差是什么？

假设输入为 x ，某一层的期望输出为 H(x) ，则网络改为学习残差 F(x) = H(x) - x，而原始输出可通过 H(x) = F(x) + x 重构。简化优化问题：学习残差 F(x) 比直接学习 H(x) 更容易（尤其是当 H(x) 约等于x 时，残差趋近零）。ResNet只需拟合 F(x) = 1 ，而 H(x) = F(x) + x = 1 + x。ResNet：拟合残差 F(x) = H(x) - x （简单映射，通常 F(x) 接近零）。传统网络：直接拟合 H(x)（复杂映射）。

2025-03-28 17:40:35 845

原创 Normalization(归一化)的类型

Normalization（归一化）是一种将数据转换到特定范围或分布的技术，旨在提升模型训练效果和收敛速度。常见的归一化方法包括 Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization 和 Weight Normalization 等。

2025-03-24 14:00:42 949

原创噪声的类型

图像处理中常见的噪声类型包括椒盐噪声、高斯噪声、泊松噪声、均匀噪声、指数噪声、脉冲噪声、周期性噪声和量化噪声。每种噪声都有不同的表现形式和成因，理解这些噪声有助于选择合适的去噪方法。3. 泊松噪声 (Poisson Noise)：由于光子计数过程的随机性引起的噪声，常见于低光条件下的图像。6. 脉冲噪声 (Impulse Noise)：随机出现的极值像素点，类似于椒盐噪声，但不限于黑白像素。8. 量化噪声 (Quantization Noise)：由于像素值量化过程中的舍入误差引起的噪声。

2025-03-21 16:26:02 1124

原创粗粒度和细粒度指的是什么？

2. 细粒度 (Fine-grained)：处理较小、较简单的数据单元，操作范围窄，细节较多。分布式系统：如函数即服务（FaaS），每个函数执行简单任务。较少的交互：系统或组件间的交互次数少，每次交互的信息量大。粗粒度：适合处理大块数据或复杂任务，操作次数少，交互简单。细粒度：适合处理小块数据或简单任务，操作次数多，交互频繁。较多的交互：系统或组件间的交互频繁，每次交互的信息量小。较低的操作频率：操作次数少，但每次处理的数据量大。较高的操作频率：操作次数多，每次处理的数据量小。

2025-03-17 19:20:58 1781

原创情感识别（Emotion Recognition）

情感识别（Emotion Recognition）是通过分析人类的多模态数据（如面部表情、语音、文本等）来识别和理解其情感状态的技术。情感识别通过分析面部表情、语音、文本和生理信号等数据来识别情感状态，主要方法包括基于面部表情、语音、文本、生理信号和多模态的情感识别。这些方法在多个领域有广泛应用。传统方法：使用词袋模型、TF-IDF等特征提取方法，结合分类器（如朴素贝叶斯、SVM）。方法：结合多种模态数据（如面部表情、语音、文本等）进行情感识别。方法：通过分析语音信号（如音调、语速、音量等）来识别情感。

2025-03-11 20:22:00 1011

原创图像的特征

局部区域特征：如HOG（方向梯度直方图）描述局部形状和纹理。卷积神经网络（CNN）特征：通过深度学习提取的高层次特征。局部二值模式（LBP）：通过局部像素的灰度变化表示纹理。颜色矩：通过颜色的均值、方差等统计量表示颜色分布。灰度共生矩阵（GLCM）：描述像素间的灰度关系。关键点：如SIFT、SURF等算法提取的关键点。兴趣区域（ROI）：图像中具有特定意义的区域。角点：如Harris角点检测提取的角点。场景描述：如室内、室外、自然景观等。直方图：描述图像中颜色的分布。光流：描述像素的运动信息。

2025-03-10 21:53:18 621

原创 Speech Recognition相关模型

speech recognition相关模型包括LAS,CTC,RNA,RNN-T,Neural transducer,Mocha

2025-03-10 11:46:06 151

原创 Teacher Forcing

Teacher Forcing是一种用于训练序列生成模型（如RNN、LSTM、GRU或Transformer）的技术，尤其在Seq2Seq模型中广泛应用。它的核心思想是在训练时使用真实标签（ground truth）作为解码器的输入，而不是依赖模型前一时刻的输出。

2025-03-03 10:58:33 922

原创残差连接（Residual Connection）

1. 缓解梯度消失：深层网络中，梯度反向传播时可能逐渐变小，导致参数更新困难。残差连接提供了捷径，使梯度能够直接回传，缓解了这一问题。残差连接（Residual Connection）是深度学习中一种用于缓解梯度消失和网络退化问题的技术，尤其在深层网络中应用广泛。残差连接通过将输入直接传递到后面的层，使得网络能够学习输入与输出之间的残差（即差异），而不是直接学习输出。残差连接允许网络跳过某些层，保持或提升性能。残差连接在ResNet（残差网络）中首次提出，并广泛应用于计算机视觉、自然语言处理等领域。

2025-03-01 17:19:51 1513

原创微调（Fine-tuning）

微调（Fine-tuning）是自然语言处理（NLP）和深度学习中的一种常见技术，用于将预训练模型（Pre-trained Model）适配到特定任务上。它的核心思想是：在预训练模型的基础上，通过少量任务相关的数据进一步训练模型，使其更好地适应目标任务。

2025-02-28 14:44:26 600

原创提示学习（Prompting）

Prompting 是一种利用预训练模型的方法，通过设计提示模板将任务转化为模型能够理解的形式。它的优势在于高效、灵活，且不需要额外参数。适用场景广泛，包括分类、生成、问答等任务。

2025-02-27 16:47:01 1273

原创 Wasserstein 距离（Wasserstein Distance）

Wasserstein 距离（Wasserstein Distance），也称为Earth Mover's Distance（EMD），是一种用于衡量两个概率分布之间差异的度量方法。它起源于最优传输理论，描述了将一个分布“搬移”成另一个分布所需的最小“工作量”。

2025-02-26 20:57:11 3378

原创生成对抗网络（GAN）

生成对抗网络是一种深度学习模型，由 Ian Goodfellow 等人在 2014 年提出。GAN由生成器和判别器组成，生成器生成假数据，判别器区分真假数据。两者通过对抗训练不断提升，最终生成器能够生成逼真的数据。GAN的训练过程类似于博弈论中的零和游戏。

2025-02-26 20:43:45 1234

原创 Transformer

（2）多头注意力（Multi-Head Attention）：为了捕捉不同子空间的信息，Transformer 使用多个注意力头，每个头独立计算注意力，最后将结果拼接并线性变换。（3）位置编码（Positional Encoding）：由于 Transformer 没有循环或卷积结构，无法直接捕捉序列顺序，因此通过位置编码为输入序列添加位置信息。（5）前馈神经网络（Feed-Forward Neural Network）：每个编码器和解码器层包含一个前馈神经网络，对每个位置的表示进行非线性变换。

2025-02-26 19:37:24 238

原创循环神经网络（RNN）

RNN用于处理序列数据，如时间序列、文本等。RNN的神经元具有记忆功能，能够保存之前时间步的信息，从而捕捉序列中的依赖关系。但RNN存在梯度消失和梯度爆炸问题。

2025-02-25 16:45:35 763

原创自编码器（Autoencoders）

自编码器由编码器和解码器组成，编码器将输入数据压缩为低维表示，解码器将其还原为原始数据。通过训练，自编码器能够学习数据的有效表示，常用于降维和特征提取。相比于独立模型，它的输入输出更灵活，且可以在输入完成后在完成解码。

2025-02-24 21:36:53 980

原创卷积神经网络（CNN）

CNN是专门用于处理图像和视频数据的神经网络。它通过卷积层提取局部特征，池化层降低数据维度，全连接层进行分类。卷积层使用卷积核在输入数据上滑动，提取空间特征。

2025-02-24 15:21:36 1366

原创传统注意力机制与自注意力机制

传统注意力机制是如何计算的，自注意力机制的原理

2025-02-24 10:34:50 1420

原创神经网络（Neural Network）

神经网络基础知识

2025-02-23 15:13:11 238

原创多模态情感分析

通过对各个模态的特征进行提取，再进行有效融合，从而更加全面、直观地关注多个模态的情感信息，更加精准地进行情感倾向预测。3. 补充和验证信息：不同模态的信息可以互相补充，例如，文本内容可能是积极的，而音频可能是消极的，多模态分析可以通过这种不一致性更准确地判断情感状态。3. 模态融合：将不同模态的特征进行融合，这可以是早期融合（在特征层级）、中期融合（在决策层级）或晚期融合（在决策后层级）。2. 提高预测精度：与单模态情感分析相比，多模态数据包含多样化的情感信息，具有更高的预测精度。

2025-02-21 20:16:52 817

原创概率图模型以及聚类降维模型

概率图模型以及聚类降维模型

2025-02-21 20:14:40 400

原创机器学习的基础模型总结

机器学习基础模型推导

2025-02-20 20:19:17 595

原创人工智能学科框架

人工智能的核心领域包含机器学习（Machine Learning）、自然语言处理（Natural Language Processing, NLP）、计算机视觉（Computer Vision）、机器人学（Robotics）、知识表示与推理（Knowledge Representation and Reasoning, KRR）等。

2025-02-19 11:48:25 1261

原创机器学习的模型类型（Model Types）

机器学习的常见模型类型

2025-02-18 10:54:10 2892

原创 GRU是什么？GRU对LSTM做了哪些改动？

GRU的更新门控制了前一时刻的状态向当前时刻的状态的更新程度，重置门控制了前一时刻的状态对当前时刻的输入的重置程度。3. 简化了计算流程：LSTM需要计算三个门控单元和一个细胞状态，而GRU只需要计算两个门控单元和一个状态向量，从而简化了计算流程，降低了计算复杂度。2. 合并了细胞状态和隐藏状态：LSTM中有一个细胞状态和一个隐藏状态，而GRU将它们合并为一个状态向量，从而减少了参数数量。4. 提高了训练速度：由于参数数量减少、计算流程简化，GRU在训练时相比LSTM具有更快的训练速度。

2025-02-17 15:09:32 511

原创如何解决RNN梯度爆炸和弥散的问题

相比于tanh或sigmoid，ReLU激活函数（及其变种如Leaky ReLU）在正区间内梯度恒定，这有助于缓解梯度爆炸问题。LSTM和GRU是RNN的变体，它们通过引入门控机制来控制信息的流动，这有助于解决梯度弥散问题。LSTM的遗忘门和GRU的更新门可以有选择性地保留或遗忘信息，从而减少梯度的衰减。在处理非常长的序列时，可以截断序列到一个合理的长度，以减少梯度在时间步上的累积。注意力机制可以帮助模型集中关注序列中的重要部分，减少对长距离依赖的敏感性，从而缓解梯度弥散问题。

2025-02-17 15:07:42 538

原创为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数，而不是选择统一一种sigmoid或者tanh？这样做的目的是什么？

这些门控需要决定信息是否通过，sigmoid的输出恰好可以表示这种概率或比例。在LSTM中，tanh用于初始化细胞状态的候选值（Candidate Values），以及最终的细胞状态和隐藏状态的计算。LSTM模型中使用sigmoid和tanh两种激活函数是为了满足模型中不同部分的需求，这种设计使得LSTM能够有效地处理序列数据中的长期依赖问题，并且在各种序列任务中表现出色。Sigmoid函数的输出范围是(0, 1)，它非常适合用于门控机制，因为门控需要一个介于0和1之间的值来表示“开启”或“关闭”的程度。

2025-02-17 15:06:04 905

原创机器学习的学习范式（Learning Paradigms）

机器学习的学习范式（Learning Paradigms）是指机器学习模型从数据中学习的方式和目标。

2025-02-17 15:03:45 2061

原创 LSTM结构推导，为什么比RNN好

4. 控制信息流动：LSTM中，输入门、输出门控制着新信息的流入和旧信息的输出，使得对信息的处理更加精细，而RNN使用固定的激活函数来控制信息的流入流出，可能会导致信息在传递过程中失真或丢失。3. 信息保留与更新：LSTM的遗忘门可以有选择性地保留或遗忘信息，提高了信息流的质量，而RNN由于缺少专门的遗忘机制，网络难以有选择性地忘记不再相关的信息。2. 记忆能力：LSTM中的记忆单元细胞状态和三个门控结构，可以更细致地控制信息的保留与丢弃，提高了长期依赖的处理能力。记忆的形成，编码，存储，巩固，检索。

2025-01-15 20:41:52 881

原创贝叶斯网络（Bayesian Network）和马尔可夫随机场（Markov Random Field，MRF）

马尔可夫性假设在给定某个节点的邻居（即与之相连的节点）的条件下，节点的状态与其其他不相邻的节点条件独立。节点之间的有向边表示一种方向性的条件依赖，意思是某个节点的状态依赖于它的父节点（即直接前置节点）。贝叶斯网络的条件独立性是通过图的结构明确表示的。贝叶斯网络（Bayesian Network）和马尔可夫随机场（Markov Random Field，MRF）是两种常见的图模型，它们在结构和推理方面有一些显著的区别。节点的依赖性是有方向的，意味着某个节点的值可能影响另一个节点的值，这种影响是单向的。

2025-01-02 21:19:21 699

空空如也

空空如也