卷心菜不想卷-CSDN博客

原创 qwen3解读

将长序列划分为多个固定长度的“块”（Chunk），在块内计算局部注意力，块间则通过稀疏或跨块注意力减少计算量。例如，对 32,768 token 的长上下文，模型可能先分块处理局部信息，再通过全局注意力聚合关键信息。在训练阶段，通过长度外推（Length Extrapolation）技术，使模型能够适应远超训练数据长度的上下文（例如从 32,768 token 推理时扩展至 128K token）。技术原理：传统位置编码（如绝对位置编码）在预训练时固定上下文长度，难以直接扩展到更长序列。

2025-05-31 16:50:26 805

原创 Convolutional Neural Networks for Sentence Classification论文解读

在处理图像数据时，CNN使用的卷积核的宽度和高度的一样的，但是在text-CNN中，卷积核的宽度是与词向量的维度一致。因为在卷积层过程中我们使用了不同高度的卷积核，使得我们通过卷积层后得到的向量维度会不一致，所以在池化层中，我们使用1-Max-pooling对每个特征向量池化成一个值，即抽取每个特征向量的最大值表示该特征，而且认为这个最大值表示的是最重要的特征。采用了多个不同尺寸的卷积核来提取句子中的关键信息，类似于多窗口大小的ngram，从而能够更好地捕捉局部相关性，提高模型的特征提取能力。

2024-09-05 19:03:56 758

原创 Layer Normalization论文解读

对数据进行归一化处理（均值为0，标准差为1），把数据分布强制统一在一个数据分布下，而且这一步不是一开始做的，而是在每次进行下一层之前都需要做的。那么BN是针对每一列(特征)进行缩放，例如算出【身高】的均值与方差，再对身高这一列的10个数据进行缩放。因此它在NLP领域的RNN上效果并不显著，但在CV领域的CNN上效果显著。用每一列的每一个元素减去这列的均值，再除以这列的标准差，从而得到归一化后的数值。LN是一种有效的正则化方法，也解决了BN在处理RNN和流式数据时遇到的问题，推动了深度学习的进一步发展。

2024-09-04 09:20:00 885

原创 Neural Machine Translation by Jointly Learning to Align and Translate论文解读

传统的Seq2Seq模型在编码阶段将整个输入序列编码成一个固定长度的向量，所以可能会丢失细节信息。注意力机制允许模型在解码的每个时间步上，根据当前需要，从编码器的输出中选择性地关注相关信息。通过改进编码器或解码器的结构来提高翻译性能，如使用长短时记忆网络（LSTM）或门控循环单元（GRU），但仍然无法从根本上解决长句翻译的问题。其中eij 是一个对齐模型，对位置 j 周围的输入和位置 i 的输出的匹配程度进行打分。使用软对齐，计算源句子中每个词与目标句子中当前预测词的相关程度，使得结果更灵活与准确。

2024-09-04 09:19:10 586

原创 Massive Exploration of Neural Machine Translation Architectures论文解读

神经机器翻译NMT是一种自动翻译的端到端方法（Neural Machine Translation by Jointly Learning to Align and Translate论文里的，刚读过），训练代价高昂，所以我们需要超参数提高NMT的性能。进行了大规模的超参数分析，对比了不同超参数（如嵌入维数、RNN单元类型、编码器和解码器的深度、注意力机制等）对NMT性能的影响。反向源编码器的性能始终优于非反向源编码器，但不优于较浅的双向编码器。期望更大的嵌入可以获得更好的BLEU分数，更低的困惑。

2024-09-03 11:06:54 571

原创 Sequence to Sequence Learning with Neural Networks论文解读

使用两个LSTM网络，一个放到encoder里将输入序列映射为固定维度的向量表示，另一个放decoder里从该向量中解码出目标序列。（使用了具有4层的深度LSTM，每层有1000个单元和1000维的词嵌入，输入词汇量为160,000，输出词汇量为80,000）实现端到端的序列学习。深度神经网络（DNNs）是极其强大的机器学习模型，在诸如语音识别和视觉对象识别等难题上表现出卓越的性能。提高了翻译效率和速度，翻译质量超过了传统的基于短语的统计机器翻译系统。输入序列中的单词顺序颠倒，提高LSTM的性能。

2024-09-03 11:05:38 789

原创 BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

避免输出有风险的单词，所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。对机器翻译进行人工评价耗时，人工价格昂贵。自动机器翻译评估方法可以降低成本，并且评估速度提高。N-gram的匹配规则，算出比较译文和参考译文之间n组词的相似的一个占比。一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。Max_Ref_Count是该单词在这句参考翻译中的出现次数。w是权重，如果采用了4-gram，则w_{n}=1/4。c是机器译文的词数，r是参考译文的词数。

2024-09-02 16:11:50 813

原创 Attention Is All You Need论文解读

模块7的输入有两个，一个是decoder的输入经过第一个大模块传过来的值（为了方便，我们叫它input_x），一个是encoder最终结果（我们暂叫它input_memory）, 模块7是把input_x通过一个linear映射成了Q，然后通过两个linear把input_memory映射成K、V，其它的与模块2完全一致。RNN本轮的输入状态取决于上一轮的输出状态，这使RNN的计算必须串行执行。把模块2的输入矩阵与模块2的输入矩阵的对应位置做加法运算。允许模型扩展到比训练中遇到的序列长度更长的序列。

2024-09-02 16:02:39 1167

原创 AFast and Accurate Dependency Parser using Neural Networks论文笔记

一个词A有一个箭头指向另外一个词B，箭头上通常有标签(label)，这些标签表示语法关系，比如主语，同位语等等。输入由三部分组成，词，词的词性，词的箭头的label，全都是embedding的形式。用神经网络做transition-based贪心模型可以缓解特征向量泛化能力差，特征计算消耗大的问题，并且准确率提高，速度变快。使用的是少量的密集特征，处理速度较快。传统的dp方法依存句法分析特征向量稀疏，特征向量泛化能力差，特征计算消耗大，并且是人工构建的稀疏特征。一个基于转换的依赖项解析的示例。

2024-07-26 14:31:09 375

原创 Learning representations by back-propagating errors论文解读

不知道隐藏层的输入是多少，那么也无法调整其权重，这才为BP算法的出现带来了现实意义。知识和学习发生在大脑主要是通过神经元间突触的形成与变化，简要表述为赫布法则。简单来说,隐藏层是用来提取特征的。隐藏层的作用就是把具体的特征变得抽象。感知机：多层感知机并不能自动更新权值，而是需要手动去设计权值。文献中重要的图记录下来。

2024-07-25 15:46:19 453

原创 On the Dimensionality of Word Embedding论文解读

如果我们对词嵌入实施了一个保持向量间相对位置的变换（即酉变换），向量所对应的语义学任务不应有任何改变。这套理论完整解释了维度对词嵌入的影响：当选取的维度过低时，词嵌入将有较大的偏差，因为模型丢失了较多信号。而维度过高时，词嵌入将有较大的方差，因为模型中夹杂了大量的噪音。● 第一项：当我们选择一个 k 维的词嵌入时，我们丢失了 k+1 维及之后的信号，这导致了模型产生偏差。随着 k 的增大，更多的谱信号被引入，导致该项随着 k 的增大而增加。如何定义词嵌入的损失函数：着重测量词嵌入酉不变性质之间的距离。

2024-07-25 15:40:59 671

原创安装anaconda后jupyter notebook打不开闪退

之后找到了appdata里面的runtime文件，删掉，重新打开jupyter noptebook，发现可以了！尝试打开jupyter，发现小黑框1s后自己关了，根本不打开浏览器。首先，通过清华源安装了最新的anaconda（安装在了D盘）之后尝试按照这个做了一遍。

2024-07-18 13:52:00 1743 9

原创 GloVe: Global Vectors for Word Representation论文笔记解读

虽然semantic评估有略微增长，但是维度增加，对资源的消耗也会增加，所以考虑到成本，一般会选择300作为最终的维度。【在类比任务上做得更好，但它们很少利用语料库的统计数据，因为它们在单独的局部上下文窗口上训练，而不是在全局共出现计数上训练。Glove模型：融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法，即全局词向量表达，利用了全局词词共现矩阵中的非0数据来训练。第三个是指窗口不对称，也就是说只考虑前面或者后面的单词，维度固定的情况下，窗口大小对模型的影响。展示了三个不同超参数对最终结果的影响。

2024-07-12 13:29:05 779 1

原创 Distributed Representations of Words and Phrases and their Compositionality论文笔记解读

连续Skip - gram模型，不涉及密集矩阵乘法，是一种高效的学习高质量分布式向量表示的方法，它能捕获大量精确的句法和语义单词关系。解决罕见词和频繁词之间的不平衡，我们采用了一种简单的子抽样方法：将训练集中的每个单词wi丢弃，由公式计算概率。负抽样和NCE的主要区别在于，NCE既需要样本，也需要噪声分布的数值概率，而负抽样只使用样本。频繁的单词(例如In、the和a)提供的信息价值比罕见的词少。分层softmax的一个简单的替代方法——负采样。解决罕见词和频繁词之间的不平衡——子抽样方法。

2024-07-12 13:22:14 352 1

原创 Efficient Estimation of Word Representations in Vector Space论文笔记解读

将输出层的单词表示为一个二叉树，其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积，每个叶子节点都表示该单词的条件概率。对于给定的一对（中心单词，上下文单词），我们希望最大化它们的共现概率。最后输出V个概率，复杂度比较高，采用了2重方法降低复杂度，分别是层次softmax和负采样。Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系。舍弃多分类，把多分类转变成二分类问题（正样本和负样本）。用周围词预测中心词，求和的时候忽略了每个词的顺序。增大正样本的概率，减小负样本的概率。

2024-07-09 15:40:47 892 1

原创 cs231n 作业3

RNN输出有两个方向，一个向上一层（输出层），一个向同层下一个时序，所以反向传播时两个梯度需要相加，输出层梯度可以直接求出（或是上一层中递归求出），所以使用dh(N,T,H)保存好，而同层时序梯度必须在同层中递归计算。(3)使用其他结构的RNNS，比如长短时记忆网络(LSTM)和门控循环单元(GRU)，这是最流行的做法。(1)合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。(2)使用 ReLu 代替 sigmoid 和 tanh 作为激活函数。

2024-07-07 14:06:00 547

原创 cs231n作业2 双层神经网络

还可以理解为dropout是一个正则化的操作，他在每次训练的时候，强行让一些feature为0，这样提高了网络的稀疏表达能力。Batch Normalization解决的一个重要问题就是梯度饱和。Forward: 计算score，再根据score计算loss。Backward：分别对W2、b2、W1、b1求梯度。使用slover来对神经网络进优化求解。卷积层的前向传播与反向传播。

2024-07-07 14:05:28 875

原创 cs231n作业1——Softmax

softmax其实和SVM差别不大，两者损失函数不同，softmax就是把各个类的得分转化成了概率。之后用随机梯度下降法优化损失函数，最后进行超参数的选择。

2024-07-07 14:04:52 496

原创 cs231n作业1——SVM

训练阶段，我们的目的是为了得到合适的 𝑊 和 𝑏 ，为实现这一目的，我们需要引进损失函数，然后再通过梯度下降来训练模型。为了获取最优的超参数，我们可以将整个训练集划分为训练集和验证集，然后选取在验证集上准确率最高的一组超参数。使用批量随机梯度下降法来更新参数，每次随机选取batchsize个样本用于更新参数 𝑊 和 𝑏。

2024-07-07 13:33:40 512

原创 cs231n作业1——KNN

使用函数np.split将训练集分成多个fold，然后使用np.vstack函数将多个fold合为本次的训练集。测试时分别计算测试样本和训练集中的每个样本的距离，然后选取距离最近的k个样本的标签信息来进行分类。所以编程时应当充分利用numpy的库特性，尽量使用向量化编程，不要使用for循环。利用numpy的广播机制，可同时计算一个测试集样本和所有训练集样本之间的距离。方法1时间 > 方法2时间 > 方法3时间。

2024-07-07 13:25:13 423

原创 cs224n作业4

【代码】cs224n作业4。

2024-07-06 21:03:15 581

原创 cs224n作业3 代码及运行结果

找到parser.transition.py文件，打开，根据相应提示进行填充。（里面加了个import copy，因为跑run.py时报错说不认识copy）代码里面也有提示让你实现什么，弄懂代码什么意思基本就可以了，看多了感觉大框架都大差不差。多看多练慢慢来，加油！代码里要求用pytorch1.0.0版本，其实不用也可以的。【删掉run.py里的assert(torch.== “1.0.0”)即可】

2024-07-06 18:56:38 467

原创 cs231n计算机视觉知识点梳理总结

参考文章：cs231n讲解

2024-07-03 15:51:12 445

原创斯坦福cs224n全课程内容总结

2024-06-09 19:21:05 230

原创斯坦福cs224n作业3下

【代码】斯坦福cs224n作业3下。

2024-05-22 18:37:13 358

原创斯坦福cs224n作业3上

会使小的值变大，大的值变小，从而梯度小的地方会得到更大的更新，梯度大的地方会得到更小的更新，减少震荡。dropout是一种正则化技术，可以减少过拟合，增加泛化性。而在评估过程中，我们。答：这种方式会使梯度变化不太大，方差小，减小震荡，可以更好地找到最小值。，所以不需要使用dropout。参数和一致输出之间的。

2024-05-22 14:08:12 678

原创斯坦福cs224n作业2下

词向量可视化。

2024-05-21 14:43:03 241

原创斯坦福cs224n作业2

softmaxxi∑j1Nexjexi第一小问：第二小问：第三小问：

2024-05-21 10:42:17 338

原创斯坦福cs224n课后题2024及代码报错处理全过程

首先，在下载了作业1（），按照它里面的README.md配置相应的环境，激活conda activate cs224n，进入作业代码jupyter notebook exploring_word_vectors.ipynb之后，运行了代码开始报错ImportError: cannot import name ‘triu‘ from ‘scipy.linalg‘，找到原因scipy版本问题，1.13.0太高了，于是降低版本就行，参考文章点击此处，我安装的scipy1.11.2也是可以的。

2024-05-17 16:21:18 1477

原创正则化缓解过拟合

如果我们的权重向量增长的太大，我们的学习算法可能会更集中于最小化权重范数。为了惩罚权重向量的大小，我们必须以某种方式在损失函数中添加。：收集更多的训练数据、正则化。，将其他权重清除为零，用于。

2024-05-14 10:09:55 284

原创 K折交叉验证

训练数据稀缺，无法构成验证集。执行k次模型训练和验证。（该轮没有训练的子集）上进行。来估计训练和验证误差。

2024-05-13 21:48:34 238

原创动手学深度学习第三章课后习题

这一章的课后题基本都是理论推导，自己会了但没整理，所以当个答案搬运工，记录一下hhh。

2024-05-13 15:22:23 758

原创动手学深度学习第二章课后题

【代码】动手学深度学习第二章课后题。

2024-05-12 13:34:15 302

原创降维主成分分析PCA

当为0.01的时候，表示保留了99%的方差数据，即大部分的数据特征被保留了。PCA做的就是找到一个投影平面使得投影误差最小化。满足上面这个式子，就可以高效地选择出参数k。意思将数据从低维还原到高维的过程。

2024-05-08 21:52:07 420

原创聚类K-means算法

随机指定两个聚类中心，之后一次次的迭代。一次迭代中要做的事只有两件：1. 簇分配。2. 移动中心。

2024-05-08 21:27:20 330

原创 XGBoost算法

XGB是一种基于boosting集成思想的加法模型。

2024-05-08 19:07:30 135

原创随机森林算法

随机森林已经用很多进行了细小修改的数据集来训练算法，并进行平均，所以即便训练集发生一些小变化，也不会对最终输出有很大影响。地从训练集中取出 n 个训练样本，组成新的训练集；（2）利用新的训练集，训练得到M个子模型；多个弱分类器组合成的强分类器。

2024-05-08 16:59:22 227

原创决策树及其拓展吴恩达课程

计算所有可能的信息增益，并选择最高的信息增益，根据选择的特征拆分数据集，并创建左右节点。在所有可能的决策树中，选择一个在训练集上表现良好，并能很好的推广到新数据（即交叉验证集和测试集）的决策树。单个决策树可能会对数据的微小变化高度敏感，即鲁棒性（意思稳定性差）很差。对每个决策树分别进行预测，最后统计结果，选择多数的结果作为最终预测结果。从根节点开始，一步一步划分，直到到达叶子节点，最后输出预测特征值。1.当某个节点的纯度为100%，即该节点的所有样本都属于一个类。3.当拆分节点后，信息增益小于阈值时。

2024-05-08 16:39:21 597

原创机器学习中的精确度、召回率、F1分数

补充：其他性能评价指标

2024-05-08 15:02:35 431

原创吴恩达深度学习神经网络 softmax adam 交叉验证

输入层（layer 0）、隐藏层、卷积层（看情况用这个）、输出层。隐藏层一般用relu函数；输出层根据需要，二分类用sigmoid，多分类用softmax…

2024-05-08 14:47:44 1646

空空如也

空空如也