自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 qwen3解读

将长序列划分为多个固定长度的“块”(Chunk),在块内计算局部注意力,块间则通过稀疏或跨块注意力减少计算量。例如,对 32,768 token 的长上下文,模型可能先分块处理局部信息,再通过全局注意力聚合关键信息。在训练阶段,通过 长度外推 (Length Extrapolation)技术,使模型能够适应远超训练数据长度的上下文(例如从 32,768 token 推理时扩展至 128K token)。技术原理 :传统位置编码(如绝对位置编码)在预训练时固定上下文长度,难以直接扩展到更长序列。

2025-05-31 16:50:26 805

原创 Convolutional Neural Networks for Sentence Classification论文解读

在处理图像数据时,CNN使用的卷积核的宽度和高度的一样的,但是在text-CNN中,卷积核的宽度是与词向量的维度一致。因为在卷积层过程中我们使用了不同高度的卷积核,使得我们通过卷积层后得到的向量维度会不一致,所以在池化层中,我们使用1-Max-pooling对每个特征向量池化成一个值,即抽取每个特征向量的最大值表示该特征,而且认为这个最大值表示的是最重要的特征。采用了多个不同尺寸的卷积核来提取句子中的关键信息,类似于多窗口大小的ngram,从而能够更好地捕捉局部相关性,提高模型的特征提取能力。

2024-09-05 19:03:56 758

原创 Layer Normalization论文解读

对数据进行归一化处理(均值为0,标准差为1),把数据分布强制统一在一个数据分布下,而且这一步不是一开始做的,而是在每次进行下一层之前都需要做的。那么BN是针对每一列(特征)进行缩放,例如算出【身高】的均值与方差,再对身高这一列的10个数据进行缩放。因此它在NLP领域的RNN上效果并不显著,但在CV领域的CNN上效果显著。用每一列的每一个元素减去这列的均值,再除以这列的标准差,从而得到归一化后的数值。LN是一种有效的正则化方法,也解决了BN在处理RNN和流式数据时遇到的问题,推动了深度学习的进一步发展。

2024-09-04 09:20:00 885

原创 Neural Machine Translation by Jointly Learning to Align and Translate论文解读

传统的Seq2Seq模型在编码阶段将整个输入序列编码成一个固定长度的向量,所以可能会丢失细节信息。注意力机制允许模型在解码的每个时间步上,根据当前需要,从编码器的输出中选择性地关注相关信息。通过改进编码器或解码器的结构来提高翻译性能,如使用长短时记忆网络(LSTM)或门控循环单元(GRU),但仍然无法从根本上解决长句翻译的问题。其中eij 是一个对齐模型,对位置 j 周围的输入和位置 i 的输出的匹配程度进行打分。使用软对齐,计算源句子中每个词与目标句子中当前预测词的相关程度,使得结果更灵活与准确。

2024-09-04 09:19:10 586

原创 Massive Exploration of Neural Machine Translation Architectures论文解读

神经机器翻译NMT是一种自动翻译的端到端方法(Neural Machine Translation by Jointly Learning to Align and Translate论文里的,刚读过),训练代价高昂,所以我们需要超参数提高NMT的性能。进行了大规模的超参数分析,对比了不同超参数(如嵌入维数、RNN单元类型、编码器和解码器的深度、注意力机制等)对NMT性能的影响。反向源编码器的性能始终优于非反向源编码器,但不优于较浅的双向编码器。期望更大的嵌入可以获得更好的BLEU分数,更低的困惑。

2024-09-03 11:06:54 571

原创 Sequence to Sequence Learning with Neural Networks论文解读

使用两个LSTM网络,一个放到encoder里将输入序列映射为固定维度的向量表示,另一个放decoder里从该向量中解码出目标序列。(使用了具有4层的深度LSTM,每层有1000个单元和1000维的词嵌入,输入词汇量为160,000,输出词汇量为80,000)实现端到端的序列学习。深度神经网络(DNNs)是极其强大的机器学习模型,在诸如语音识别和视觉对象识别等难题上表现出卓越的性能。提高了翻译效率和速度,翻译质量超过了传统的基于短语的统计机器翻译系统。输入序列中的单词顺序颠倒,提高LSTM的性能。

2024-09-03 11:05:38 789

原创 BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

避免输出有风险的单词,所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。对机器翻译进行人工评价耗时,人工价格昂贵。自动机器翻译评估方法可以降低成本,并且评估速度提高。N-gram的匹配规则,算出比较译文和参考译文之间n组词的相似的一个占比。一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。Max_Ref_Count是该单词在这句参考翻译中的出现次数。w是权重,如果采用了4-gram,则w_{n}=1/4。c是机器译文的词数,r是参考译文的词数。

2024-09-02 16:11:50 813

原创 Attention Is All You Need论文解读

模块7的输入有两个,一个是decoder的输入经过第一个大模块传过来的值(为了方便,我们叫它input_x),一个是encoder最终结果(我们暂叫它input_memory), 模块7是把input_x通过一个linear映射成了Q,然后通过两个linear把input_memory映射成K、V,其它的与模块2完全一致。RNN本轮的输入状态取决于上一轮的输出状态,这使RNN的计算必须串行执行。把模块2的输入矩阵与模块2的输入矩阵的对应位置做加法运算。允许模型扩展到比训练中遇到的序列长度更长的序列。

2024-09-02 16:02:39 1167

原创 AFast and Accurate Dependency Parser using Neural Networks论文笔记

一个词A有一个箭头指向另外一个词B, 箭头上通常有标签(label),这些标签表示语法关系,比如主语,同位语等等。输入由三部分组成,词,词的词性,词的箭头的label,全都是embedding的形式。用神经网络做transition-based贪心模型可以缓解特征向量泛化能力差,特征计算消耗大的问题,并且准确率提高,速度变快。使用的是少量的密集特征,处理速度较快。传统的dp方法依存句法分析特征向量稀疏,特征向量泛化能力差,特征计算消耗大,并且是人工构建的稀疏特征。一个基于转换的依赖项解析的示例。

2024-07-26 14:31:09 375

原创 Learning representations by back-propagating errors论文解读

不知道隐藏层的输入是多少,那么也无法调整其权重,这才为BP算法的出现带来了现实意义。知识和学习发生在大脑主要是通过神经元间突触的形成与变化,简要表述为赫布法则。简单来说,隐藏层是用来提取特征的。隐藏层的作用就是把具体的特征变得抽象。感知机:多层感知机并不能自动更新权值,而是需要手动去设计权值。文献中重要的图记录下来。

2024-07-25 15:46:19 453

原创 On the Dimensionality of Word Embedding论文解读

如果我们对词嵌入实施了一个保持向量间相对位置的变换(即酉变换),向量所对应的语义学任务不应有任何改变。这套理论完整解释了维度对词嵌入的影响:当选取的维度过低时,词嵌入将有较大的偏差,因为模型丢失了较多信号。而维度过高时,词嵌入将有较大的方差,因为模型中夹杂了大量的噪音。● 第一项:当我们选择一个 k 维的词嵌入时,我们丢失了 k+1 维及之后的信号,这导致了模型产生偏差。随着 k 的增大,更多的谱信号被引入,导致该项随着 k 的增大而增加。如何定义词嵌入的损失函数:着重测量词嵌入酉不变性质之间的距离。

2024-07-25 15:40:59 671

原创 安装anaconda后jupyter notebook打不开 闪退

之后找到了appdata里面的runtime文件,删掉,重新打开jupyter noptebook,发现可以了!尝试打开jupyter,发现小黑框1s后自己关了,根本不打开浏览器。首先,通过清华源安装了最新的anaconda(安装在了D盘)之后尝试按照这个做了一遍。

2024-07-18 13:52:00 1743 9

原创 GloVe: Global Vectors for Word Representation论文笔记解读

虽然semantic评估有略微增长,但是维度增加,对资源的消耗也会增加,所以考虑到成本,一般会选择300作为最终的维度。【在类比任务上做得更好,但它们很少利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共出现计数上训练。Glove模型:融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法,即全局词向量表达,利用了全局词词共现矩阵中的非0数据来训练。第三个是指窗口不对称,也就是说只考虑前面或者后面的单词,维度固定的情况下,窗口大小对模型的影响。展示了三个不同超参数对最终结果的影响。

2024-07-12 13:29:05 779 1

原创 Distributed Representations of Words and Phrases and their Compositionality论文笔记解读

连续Skip - gram模型,不涉及密集矩阵乘法,是一种高效的学习高质量分布式向量表示的方法,它能捕获大量精确的句法和语义单词关系。解决罕见词和频繁词之间的不平衡,我们采用了一种简单的子抽样方法:将训练集中的每个单词wi丢弃,由公式计算概率。负抽样和NCE的主要区别在于,NCE既需要样本,也需要噪声分布的数值概率,而负抽样只使用样本。频繁的单词(例如In、the和a)提供的信息价值比罕见的词少。分层softmax的一个简单的替代方法——负采样。解决罕见词和频繁词之间的不平衡——子抽样方法。

2024-07-12 13:22:14 352 1

原创 Efficient Estimation of Word Representations in Vector Space论文笔记解读

将输出层的单词表示为一个二叉树,其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积,每个叶子节点都表示该单词的条件概率。对于给定的一对(中心单词,上下文单词),我们希望最大化它们的共现概率。最后输出V个概率,复杂度比较高,采用了2重方法降低复杂度,分别是层次softmax和负采样。Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系。舍弃多分类,把多分类转变成二分类问题(正样本和负样本)。用周围词预测中心词,求和的时候忽略了每个词的顺序。增大正样本的概率,减小负样本的概率。

2024-07-09 15:40:47 892 1

原创 cs231n 作业3

RNN输出有两个方向,一个向上一层(输出层),一个向同层下一个时序,所以反向传播时两个梯度需要相加,输出层梯度可以直接求出(或是上一层中递归求出),所以使用dh(N,T,H)保存好,而同层时序梯度必须在同层中递归计算。(3)使用其他结构的RNNS,比如长短时记忆网络(LSTM)和 门控循环单元(GRU),这是最流行的做法。(1)合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域。(2)使用 ReLu 代替 sigmoid 和 tanh 作为激活函数。

2024-07-07 14:06:00 547

原创 cs231n作业2 双层神经网络

还可以理解为dropout是一个正则化的操作,他在每次训练的时候,强行让一些feature为0,这样提高了网络的稀疏表达能力。Batch Normalization解决的一个重要问题就是梯度饱和。Forward: 计算score,再根据score计算loss。Backward:分别对W2、b2、W1、b1求梯度。使用slover来对神经网络进优化求解。卷积层的前向传播与反向传播。

2024-07-07 14:05:28 875

原创 cs231n作业1——Softmax

softmax其实和SVM差别不大,两者损失函数不同,softmax就是把各个类的得分转化成了概率。之后用随机梯度下降法优化损失函数,最后进行超参数的选择。

2024-07-07 14:04:52 496

原创 cs231n作业1——SVM

训练阶段,我们的目的是为了得到合适的 𝑊 和 𝑏 ,为实现这一目的,我们需要引进损失函数,然后再通过梯度下降来训练模型。为了获取最优的超参数,我们可以将整个训练集划分为训练集和验证集,然后选取在验证集上准确率最高的一组超参数。使用批量随机梯度下降法来更新参数,每次随机选取batchsize个样本用于更新参数 𝑊 和 𝑏。

2024-07-07 13:33:40 512

原创 cs231n作业1——KNN

使用函数np.split将训练集分成多个fold,然后使用np.vstack函数将多个fold合为本次的训练集。测试时分别计算测试样本和训练集中的每个样本的距离,然后选取距离最近的k个样本的标签信息来进行分类。所以编程时应当充分利用numpy的库特性,尽量使用向量化编程,不要使用for循环。利用numpy的广播机制,可同时计算一个测试集样本和所有训练集样本之间的距离。方法1时间 > 方法2时间 > 方法3时间。

2024-07-07 13:25:13 423

原创 cs224n作业4

【代码】cs224n作业4。

2024-07-06 21:03:15 581

原创 cs224n作业3 代码及运行结果

找到parser.transition.py文件,打开,根据相应提示进行填充。(里面加了个import copy,因为跑run.py时报错说不认识copy)代码里面也有提示让你实现什么,弄懂代码什么意思基本就可以了,看多了感觉大框架都大差不差。多看多练慢慢来,加油!代码里要求用pytorch1.0.0版本,其实不用也可以的。【删掉run.py里的assert(torch.== “1.0.0”)即可】

2024-07-06 18:56:38 467

原创 cs231n计算机视觉知识点梳理总结

参考文章:cs231n讲解

2024-07-03 15:51:12 445

原创 斯坦福cs224n全课程内容总结

2024-06-09 19:21:05 230

原创 斯坦福cs224n作业3下

【代码】斯坦福cs224n作业3下。

2024-05-22 18:37:13 358

原创 斯坦福cs224n作业3上

会使小的值变大,大的值变小,从而梯度小的地方会得到更大的更新,梯度大的地方会得到更小的更新,减少震荡。dropout是一种正则化技术,可以减少过拟合,增加泛化性。而在评估过程中,我们。答:这种方式会使梯度变化不太大,方差小,减小震荡,可以更好地找到最小值。,所以不需要使用dropout。参数和一致输出之间的。

2024-05-22 14:08:12 678

原创 斯坦福cs224n作业2下

词向量可视化。

2024-05-21 14:43:03 241

原创 斯坦福cs224n作业2

softmaxxi​∑j1N​exj​exi​​第一小问:第二小问:第三小问:

2024-05-21 10:42:17 338

原创 斯坦福cs224n课后题2024及代码报错处理全过程

首先,在下载了作业1(),按照它里面的README.md配置相应的环境,激活conda activate cs224n,进入作业代码jupyter notebook exploring_word_vectors.ipynb之后,运行了代码开始报错ImportError: cannot import name ‘triu‘ from ‘scipy.linalg‘,找到原因scipy版本问题,1.13.0太高了,于是降低版本就行,参考文章点击此处,我安装的scipy1.11.2也是可以的。

2024-05-17 16:21:18 1477

原创 正则化 缓解过拟合

如果我们的权重向量增长的太大, 我们的学习算法可能会更集中于最小化权重范数。为了惩罚权重向量的大小, 我们必须以某种方式在损失函数中添加。:收集更多的训练数据、正则化。,将其他权重清除为零,用于。

2024-05-14 10:09:55 284

原创 K折交叉验证

训练数据稀缺,无法构成验证集。执行k次模型训练和验证。(该轮没有训练的子集)上进行。来估计训练和验证误差。

2024-05-13 21:48:34 238

原创 动手学深度学习第三章课后习题

这一章的课后题基本都是理论推导,自己会了但没整理,所以当个答案搬运工,记录一下hhh。

2024-05-13 15:22:23 758

原创 动手学深度学习第二章课后题

【代码】动手学深度学习第二章课后题。

2024-05-12 13:34:15 302

原创 降维 主成分分析PCA

当为0.01的时候,表示保留了99%的方差数据,即大部分的数据特征被保留了。PCA做的就是找到一个投影平面使得投影误差最小化。满足上面这个式子,就可以高效地选择出参数k。意思将数据从低维还原到高维的过程。

2024-05-08 21:52:07 420

原创 聚类K-means算法

随机指定两个聚类中心,之后一次次的迭代。一次迭代中要做的事只有两件:1. 簇分配。2. 移动中心。

2024-05-08 21:27:20 330

原创 XGBoost算法

XGB是一种基于boosting集成思想的加法模型。

2024-05-08 19:07:30 135

原创 随机森林算法

随机森林已经用很多进行了细小修改的数据集来训练算法,并进行平均,所以即便训练集发生一些小变化,也不会对最终输出有很大影响。地从训练集中取出 n 个训练样本,组成新的训练集;(2)利用新的训练集,训练得到M个子模型;多个弱分类器组合成的强分类器。

2024-05-08 16:59:22 227

原创 决策树及其拓展 吴恩达课程

计算所有可能的信息增益,并选择最高的信息增益,根据选择的特征拆分数据集,并创建左右节点。在所有可能的决策树中,选择一个在训练集上表现良好,并能很好的推广到新数据(即交叉验证集和测试集)的决策树。单个决策树可能会对数据的微小变化高度敏感,即鲁棒性(意思稳定性差)很差。对每个决策树分别进行预测,最后统计结果,选择多数的结果作为最终预测结果。从根节点开始,一步一步划分,直到到达叶子节点,最后输出预测特征值。1.当某个节点的纯度为100%,即该节点的所有样本都属于一个类。3.当拆分节点后,信息增益小于阈值时。

2024-05-08 16:39:21 597

原创 机器学习中的精确度、召回率、F1分数

补充:其他性能评价指标

2024-05-08 15:02:35 431

原创 吴恩达 深度学习 神经网络 softmax adam 交叉验证

输入层(layer 0)、隐藏层、卷积层(看情况用这个)、输出层。隐藏层一般用relu函数;输出层根据需要,二分类用sigmoid,多分类用softmax…

2024-05-08 14:47:44 1646

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除