magic-hl-CSDN博客

原创距离的比较

\(\|\mathbf{x}\| = \sqrt{\sum_{i=1}^{n} x_i^2}\) 和 \(\|\mathbf{y}\| = \sqrt{\sum_{i=1}^{n} y_i^2}\) 分别是向量 \(\mathbf{x}\) 和 \(\mathbf{y}\) 的范数（即向量的长度）。- \(\|\mathbf{x}\|\) 和 \(\|\mathbf{y}\|\) 分别是向量 \(\mathbf{x}\) 和 \(\mathbf{y}\) 的范数（即向量的长度）。

2024-06-14 16:01:06 446

原创 TextRank总结

其中，\( \text{Score}(V_i) \) 是节点 \( V_i \) 的权重，\( d \) 是阻尼因子（一般取值为0.85），\( \text{In}(V_i) \) 是指向节点 \( V_i \) 的节点集合，\( \text{OutDegree}(V_j) \) 是节点 \( V_j \) 的出度（即指向其他节点的边的数量）。4. **提取关键词或生成摘要**：根据节点的权重，可以提取权重较高的词语作为关键词，或者根据节点在文本中的位置和权重生成文本摘要。

2024-04-10 09:32:14 341

原创 DPO直接偏好优化总结

2024-04-02 23:48:44 503

原创长文本摘要架构总结

4 遵循 Sparse Transformer（Child 等人，2019）和 Longformer（Beltagy 等人，2019）中的局部窗口注意力机制2020），我们将编码器中的自注意力机制修改为局部自注意力（见图2），我们将这种局部自注意力BART称为LoBART。ITC 需要的计算量较小，因为很少有词元是全局的，同时模型可以捕获足够的全局信息 (也可以借助随机注意力)。，表示从输入令牌的块到它所关注的每个全局令牌的块的距离，以及（2）T5 风格的层标准化参数，用于标准化每个全局令牌的嵌入。

2024-04-01 23:12:52 8297

原创 Baichuan大模型总结

数据处理数据处理对于数据处理，我们关注数据的频率和质量。数据的频率依赖于聚类和去重。我们构建了一个支持 LSH-like 特征和密集嵌入特征的大规模去重和聚类系统。这个系统可以在几小时内对万亿级别的数据进行聚类和去重。基于聚类，个别文档、段落和句子都被去重并评分。这些评分然后用于预训练中的数据抽样。在数据处理的不同阶段，训练数据的大小如下图所示，绝对匹配去重 29.89% 数据，启发式方法去除 1.77%，句子级别的质量过滤 3%，句子级别和段落级别去重 14.47%，文档级别去重 19.13%

2024-04-01 08:29:23 603

原创 NLP大模型推理采样策略

而beam search是对贪心策略一个改进。思路也很简单，就是稍微放宽一些考察的范围。在每一个时间步，不再只保留当前分数最高的个输出，而是保留个。当num_beams=1时集束搜索就退化成了贪心搜索。下图是一个实际的例子，每个时间步有ABCDE共5种可能的输出，即，图中的num_beams=2，也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列。可以发现，beam search在每一步需要考察的候选人数量是贪心搜索的num_beams倍，因此是一种牺牲时间换性能的方法。

2024-03-31 10:57:17 753

原创 NLP分词技术

然后，我们统计每一对相邻字符的频率，例如 'a' 和 'p' 的频率、'p' 和 'p' 的频率等。我们将频率最高的字符对进行合并，并将它们替换为一个新的字符。3. 通过将当前词汇表中的两个单元组合成一个新的单元来生成新的词汇单元，以使词汇表的大小增加一。重复这个过程，直到达到预定的子词表大小或者迭代次数。假设在第一次迭代中，最频繁出现的字符对是 ('a', 'p')，它出现了4次。这个过程的目标是根据训练数据中的频繁组合来构建一个子词的词汇表，以便于处理诸如未登录词和稀有词等自然语言处理任务中的复杂性。

2024-03-31 10:44:41 646

原创强化学习-TPRO策略

2024-03-30 01:24:14 116

原创强化学习-Actor-critic总结

2024-03-30 01:21:45 107

原创强化学习-策略梯度总结

2024-03-30 01:19:02 331

原创强化学习-DQN总结

2024-03-30 01:15:25 167

原创强化学习-Dyna-Q总结

2024-03-30 01:13:27 149

原创强化学习-时序差分总结

2024-03-30 01:09:26 130

原创强化学习-动态规划总结

2024-03-30 01:07:04 141

原创马尔可夫决策过程总结

2024-03-30 00:58:25 125

原创 HMM模型总结

2. **状态数量**：HMM 的性能受限于状态数量的选择，状态数量过多会增加模型的复杂度，容易出现过拟合。3. **初始化**：HMM 模型的参数通常需要进行初始化，初始参数的选择可能影响模型的收敛性和性能。4. **序列建模**：HMM 可以有效地对序列数据进行建模，捕捉数据中的时间相关性和状态转移规律。4. **训练数据**：HMM 模型对训练数据的要求较高，需要足够的标注数据才能获得良好的性能。2. **手写识别**：HMM 可以用于手写字符或手势的识别，例如识别手写数字、手势识别等。

2024-03-28 22:26:44 275

原创采样的维度灾难

4. **数据稀疏性影响模型的泛化能力**：在高维空间中，由于数据点之间的距离很大，模型很难从有限的数据中捕捉到数据之间的真实关系，导致模型的泛化能力变差。1. **样本稀疏性**：随着维度的增加，样本之间的距离增大，使得数据变得非常稀疏，而且需要更多的数据来充分覆盖整个空间。3. **过拟合风险增加**：在高维空间中，模型很容易过拟合，因为模型可能会对噪声数据进行拟合，而不是真正的数据分布。2. **计算复杂性增加**：在高维空间中，计算距离、密度估计等操作变得更加困难和耗时，因为需要考虑到更多的维度。

2024-03-28 20:56:25 306

原创统计的线性分类算法

激活函数损失函数：求解有两种方式：一个是求导（计算量大，因为求到需要全部的样本）另一个是求期望然后梯度下降（只需要一批样本慢慢更新）

2024-03-28 17:31:32 1777 1

原创高斯分布总结

2024-03-28 15:30:19 91

原创 Bert模型大全总结

BERT在预训练阶段，摒弃了传统的单向语言模型，即 left-to-right or right-to-left，而是使用双向语言模型，上面也提到了这其实是由于BERT使用了一种新的语言模型掩码语言模型-，这是BERT使用的两个无监督任务之一，另外一个则是预测两个句子是否为来自连续的段落-。

2024-03-28 10:41:25 1513

原创 transformer-xl总结

2024-03-28 09:57:40 122

原创 llama2模型总结

2024-03-28 09:53:30 261

原创 XLNet模型总结

2024-03-27 21:45:35 108

原创 TF-IDF算法

TF-IDF（词频-逆文档频率）是一种用于衡量文本中词语重要性的方法，特别适用于信息检索和文本挖掘任务。下面我将深入讲解TF-IDF的计算过程，以便更好地理解。和。词频是指某个词语在文档中出现的频率。TF表示了一个词语在文档中的重要性，通常通过以下公式计算：其中表示词语 t 在文档 d 中出现的次数，表示文档 d 中所有词语的出现次数之和。逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大，表示词语在整个文档集合中越不常见，因此在文档中的重要性越高。

2024-03-27 16:43:31 1119

原创 fastText的总结

fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量，fastText会自己训练词向量3、fastText两个重要的优化：Hierarchical Softmax、N-gram就是输出换成了标签，其他跟word2vec一样。

2024-03-27 15:57:58 321

原创 GloVe总结

共现矩阵是一种用于表示词语之间共现关系的矩阵，其中每个元素表示对应词语在文本中的共现次数或者共现权重。这种矩阵可以用于词语之间的语义关系建模，以及一些自然语言处理任务中，如词义相似度计算、文本分类等。

2024-03-27 15:36:54 969

原创 word2vec总结

Hierarchical Softmax利用了Huffman树依据词频建树，词频大的节点离根节点较近，词频低的节点离根节点较远，距离远参数数量就多，在训练的过程中，低频词的路径上的参数能够得到更多的训练，所以效果会更好。- LDA 是一种基于概率图模型的主题模型，其目标是发现文档集合中的主题结构，并学习每个主题和每个词之间的分布关系。因为低频词汇的上下文信息相对稀疏，通过生成更多的负例，我们可以增加模型学习到的低频词汇的上下文信息，从而提高模型对低频词汇的表示能力。对词频低的和词频高的单词有什么影响？

2024-03-27 14:35:41 607

原创 PLSA和LDA是自相关的，和N-Gram的与n-1相关有什么区别

\( n-1 \) 相关是指一个事件或者变量的发生或者取值与之前 \( n-1 \) 个事件或者变量的发生或者取值相关。N-Gram 模型是一种基于 \( n \) 元语法的文本模型，它假设文本中的每个词或者字符的出现只与前 \( n-1 \) 个词或者字符相关。在统计建模中，"自相关"（autocorrelation）和 "与 \( n-1 \) 相关"（\( n-1 \) dependence）是两个不同的概念，它们描述了不同的数据特征。2. **\( n-1 \) 相关**：（是有时间性的）

2024-03-27 13:25:08 171

原创 LSA模型

主题模型可定义为一种在大量文档中发现其主题的无监督技术。这些主题本质上十分抽象，即彼此相关联的词语构成一个主题。同样，在单个文档中可以有多个主题。

2024-03-27 13:09:16 451

原创 LDA模型的理解

2024-03-27 12:45:57 140

原创优化器参数

\(G_{t,ii}\) 是前 \(t\) 次迭代时参数 \(i\) 的梯度的平方和的累积；- \(\hat{m}_t\) 和 \(\hat{v}_t\) 是对一阶矩和二阶矩的修正项；- \(\theta_{t,i}\) 是第 \(t\) 次迭代时参数 \(i\) 的值；- \(g_{t,i}\) 是第 \(t\) 次迭代时参数 \(i\) 的梯度；- \(\beta_1\) 和 \(\beta_2\) 是指数加权平均的衰减率；- \(g_t\) 是第 \(t\) 次迭代时的梯度；

2024-03-26 21:47:12 397

原创批量归一化反向传播推导

接下来，我们计算 \( \frac{\partial L}{\partial x_i} \)。这需要分解为对均值 \( \mu \) 和方差 \( \sigma^2 \) 的梯度，以及归一化操作和反归一化操作的梯度。其中，\( \gamma \) 和 \( \beta \) 是学习参数，\( \epsilon \) 是一个很小的数，用于数值稳定性。最后，根据链式法则，我们可以计算得到 \( \frac{\partial L}{\partial x_i} \)。批量归一化参数的梯度包括均值和方差的梯度。

2024-03-24 10:41:32 825 1

原创 python学习总结

函数可以作为变量进行传入。def f1(a):print(c)#像这样的函数就叫闭包函数：1、函数嵌套 2、外部函数返回了内部函数的引用 3、内部函数使用了外部函数的引用print(c)

2023-12-13 11:41:53 791

原创 VAE变分自编码

在VAE中，我们从一个固定的标准正态分布中采样一个噪声向量，然后通过学习的变分参数（均值和方差）对这个噪声进行线性变换和非线性变换，以生成潜在变量的样本。这个过程中的采样操作是不可导的，但通过Reparameterization Trick，我们可以将采样操作重写为通过一个确定的变换（而不是直接采样）来获得样本。答案是，我们可以这么做，运气好的话我们可以得到一些有用的图片，但是对绝大多数随机生成的，只会生成一些没有意义的噪声。自编码器的训练过程旨在最小化重构误差，即输入数据和解码后的输出之间的差异。

2023-12-11 17:25:30 595

原创 Diffusion Model

文字encoder越好结果越好，diffusion model结果差不多。输入一张杂性的输入 + 额外的数字（denoise程度）那diffusion model呢？李宏毅diffusion model讲解。vae是怎么工作的？可以将上面两个高斯合在一起。为什么要加入最后标红的一项？FID评估（分数越小越好）GAN网络可以加到后面。实际上:一次就加完噪音。

2023-12-11 10:43:52 476

原创 cs231n:Lecture 15: Generative Models (Guest Lecture by Dr. Ruiqi Gao from Google DeepMind)

内容：- 深度生成模型及在计算机视觉中的应用- 变分自编码器- 扩散模型- 离散时间扩散模型- 连续时间扩散模型：微分方程框架- 案例研究：Imagen - 高保真度文本到图像的扩散模型应用：content generation、表示学习、艺术工具应用: Colorization, Inpainting, Restoration，Outfilling。跟数据增强有什么区别？

2023-12-11 07:30:11 2034

原创 cs231n：Lecture 14: Robot Learning

3. **探索与利用：** 强化学习中经常涉及到探索与利用的平衡。2. **延迟奖励：** 在强化学习中，代理的决策可能会在未来时间步产生影响。4. **环境动态性：** 在强化学习中，环境可能是非静态和动态的，而在监督学习中通常假设训练和测试数据的分布是相同的。2. **演员-评论家方法**：训练一个演员（预测动作，类似策略梯度）和一个评论家（预测采取这些动作后我们获得的未来奖励，类似Q学习）。3. **模仿学习**：收集关于专家在环境中的表现的数据，学习一个函数来模仿他们的行为（监督学习方法）。

2023-12-10 15:14:26 743

原创 cs231n: Lecture 13: Self-supervised Learning

自监督学习- 两者的目标都是从数据中学习，而无需手动标注标签。- 自监督学习方法解决“预文本”任务，这些任务产生了对下游任务有用的特征。- 通过监督学习目标进行学习，例如分类、回归。- 这些预文本任务的标签是自动生成的。自监督预文本任务1. 解决预文本任务使模型学习到良好的特征。2. 我们可以自动生成预文本任务的标签。左图：根据记忆绘制的一美元纸币。右图：在有一美元纸币在场的情况下随后绘制的图。图片来源：Epstein, 2016学习生成像素级细节通常是不必要的；

2023-12-10 10:02:54 637

原创 cs231n：Lecture 12: Visualizing and Understanding

与合成图像以最大化特定神经元的方法不同，DeepDream试图在网络的某一层中增强神经元的激活。- 有导向的反向传播生成图像。- 通过反向传播实现显著性。- 可视化最终层的特征。- 梯度上升可视化特征。DeepDream: 增强现有特征。1. 前向传播：计算所选层的激活。2. 将所选层的梯度设置为其激活。3. 反向传播：计算图像的梯度。卷积内部发生了什么？

2023-12-09 17:27:21 143

原创 cs231n：Lecture 11: Object Detection and Image Segmentation

2、卷积：直觉上的想法：使用卷积网络对整个图像进行编码，并在其上进行语义分割。3、完全卷积网络：设计一个仅使用卷积层而没有下采样操作的网络，以一次性对所有像素进行预测！添加一个小型掩码网络，该网络对每个感兴趣区域（RoI）进行操作，并预测一个 28x28 的二进制掩码。问题：如何将大小为 512 x 5 x 4 的区域调整为 512 x 2 x 2 的张量？其余与Fast R-CNN相同：为每个提议裁剪特征，对每个提议进行分类。裁剪卷积特征而不是图像！即使输入区域的大小不同，区域特征始终具有相同的大小！

2023-12-09 16:42:48 510

空空如也

空空如也