机器学习(深度学习)
文章平均质量分 96
CityD
这个作者很懒,什么都没留下…
展开
-
图卷积神经网络(GCN)浅浅析
图卷积神经网络简单介绍原创 2022-07-09 21:35:27 · 1287 阅读 · 0 评论 -
Transformer
Transformer是在"Attention is All You Need"提出来的,是一个基于attention(自注意力机制)结构来处理序列相关问题的模型。Transfomer在很多不同的nlp任务中取得了成功,例如:文本分类、机器翻译等。Tranformer没有使用CNN或者RNN的结构,完全基于注意力机制,自动捕捉输入序列不同位置的关系,擅长处理长文本序列信息,并且该模型可以高度并行工作,训练速度较快。尽管Transformer最初是应用于序列到序列的学习文本数据,但是现在已经推广到了各种现原创 2022-04-29 21:41:52 · 587 阅读 · 0 评论 -
编码器-解码器(seq2seq)
文章目录1、编码器解码器架构1.1、概念1.2、代码1.2.1、编码器(Encoder)1.2.2、解码器(Decoder)1.2.3、合并编码器和解码器2、seq2seq模型2.1、编码器2.2、解码器2.3、编码器-解码器细节2.4、训练&推理2.5 评价指标-BLEU3、机器翻译代码3.1、机器翻译数据集3.1.1、下载和预处理数据集3.1.2、词元化3.1.3、词表3.1.4、截断和填充文本序列3.1.5、构建数据迭代器3.2、seq2seq模型搭建与训练3.2.1、编码器3.2.2、解码器原创 2022-04-26 17:12:08 · 18519 阅读 · 1 评论 -
NLP-语言模型
语言模型1、语言模型的概念语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据就是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为TTT的文本中的词依次为w1,w2,⋯ ,wTw_1,w_2,\cdots ,w_Tw1,w2,⋯,wT,那么在离散的时间序列中,wt(1≤t≤T)w_t(1\le t \le T)wt(1≤t≤T)可以看作在时间步ttt的输出或者标签。给定一个长度为TTT的序列w1,w2,⋯ ,wTw_1,w_2,\原创 2022-04-14 22:20:16 · 5123 阅读 · 0 评论 -
Chapter6 卷积神经网络(CNN)
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,是一种专门用来处理具有类似网格结构的数据的神经网络。例如时间序列数据(可以认为是在时间轴上有规律地采样形成的一维网格)和图像数据(可以看作二维的像素网格)。卷积神经网络在诸多应用领域都表现优异。“卷积神经网络”一词表明该网络使用了卷积(convolution)这种数学运算。卷积是一种特殊的线性运算。卷积神经网络是指那些至少在网络的一层中使用卷积运算来替代一般的矩阵乘法运算的神经网络。CNN网络主要有三部分原创 2022-04-12 14:07:45 · 2204 阅读 · 0 评论 -
过拟合-权重正则化和Dropout正则化
文章目录4.1、权重正则化4.1.1、简介4.1.2、从零开始实现4.1.3、使用Pytorch的简洁实现4.2 Dropout正则化4.2.1、简介4.2.2、从零开始实现4.2.3、简洁实现对模型进行评估和优化的过程往往是循环往复的。在训练模型的过程中,经常会出现刚开始训练时,训练和测试精度不高,这时的模型时欠拟合,然后通过增加迭代次数或者通过优化,训练精度和测试精度继续提升。但随着训练迭代次数的增加或不断优化,有可能会出现训练精度和损失值继续改善,但测试精度或损失值不降反而上升的情况,如下图所示,这原创 2022-04-07 11:25:49 · 2527 阅读 · 0 评论 -
激活函数(sigmoid、tanh、ReLU、softmax)
文章目录1.1、sigmoid函数1.2、tanh函数1.3、ReLU函数1.4、softmax函数激活函数在神经网络中的作用有很多,主要作用是给神经网络提供非线性建模能力。如果没有激活函数,那么再多层的神经网络也只能处理线性可分问题。常用的激活函数有sigmoid、tanh、relu、softmax等。1.1、sigmoid函数sigmoid函数将输入变换为(0,1)上的输出。它将范围(-inf,inf)中的任意输入压缩到区间(0,1)中的某个值:sigmoid(x)=11+exp(−x)sigm原创 2022-04-07 11:22:35 · 84728 阅读 · 3 评论 -
优化器(Optimizer)(SGD、Momentum、AdaGrad、RMSProp、Adam)
文章目录3.1、传统梯度优化的不足(BGD,SGD,MBGD)3.1.1 一维梯度下降3.1.2 多维梯度下降3.2、动量(Momentum)3.3、AdaGrad算法3.4、RMSProp算法3.5、Adam算法优化器在机器学习、深度学习中往往起着举足轻重的作用,同一个模型,因选择不同的优化器,性能有可能相差很大,甚至导致一些模型无法训练。所以了解各种优化器的基本原理非常重要。下面介绍各种常用优化器或算法的主要原理,及各自的优点或不足。3.1、传统梯度优化的不足(BGD,SGD,MBGD)BGD、S原创 2022-04-05 10:38:02 · 55387 阅读 · 8 评论 -
损失函数-负对数似然和交叉熵(Pytorch中的应用)
文章目录1、负对数似然损失函数1.1、似然1.2、似然函数1.3、极大似然估计1.4、对数似然1.5、负对数似然1.6、pytorch中的应用2、交叉熵损失函数2.1、信息量2.2、信息熵2.3、相对熵(KL散度)2.4、交叉熵2.5、pytorch中的应用3、使用总结1、负对数似然损失函数1.1、似然在解释负对数似然之前,首先要了解什么是似然。似然(likelihood)和概率(probability)有着一定的区别和联系。似然和概率是针对不同内容的估计和近似。概率表达了给定参数θ\thetaθ下样原创 2022-04-01 23:30:25 · 9589 阅读 · 4 评论