深度学习
文章平均质量分 57
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Rethink LSTM&GRU
它们表示的意思是,聚合当前的输入信息以及记忆信息(之前的信息),来决定模型不同的位置有多少比例保留下来。从这六条式子中,一定要知道,LSTM 接收 3 个输入值分别为。这三个 0 到 1 的值,是聚合当前的输入特征。是加权的矩阵,写模型的时候用。是 Sigmoid 函数。和 上一时刻的隐藏状态。理解起来和前者的叙述类似。原创 2023-09-10 21:10:46 · 598 阅读 · 1 评论 -
如何快速看出矩阵乘法的时间复杂度
个元素,每个元素需要经过d个元素相乘再相加得到(加权求和),所以。咱姑且把 Softmax 和 Softmax里面的除以。如果你不想鸟我上面写的,你只需要按照这个规则来看。以 Attention Score 的计算为例。去掉(其运算时间复杂度小),表示为。是每个token的维度,一般认为。从矩阵乘法上看维度变换是。删掉一个即可表示时间复杂度。是token的数量,原创 2023-07-07 11:53:01 · 396 阅读 · 0 评论 -
pytorch model代码内tensor device不一致的问题
在编写一段处理两个tensor的代码如下,需要在forward函数内编写函数创建一个新的tensor进行索引的掩码计算。统一下进行掩码计算的张量的设备即可。这段代码报了这个错误。原创 2023-07-04 14:03:32 · 923 阅读 · 0 评论 -
Backbone共享参数,代码出现的一个错误
因为是共享参数的骨干网络,如果这样写的话,就是不共享参数的网络了。正确做法应该是,初始化的时候,用同一个vgg来初始化。这块是共享一个backbone特征提取网络。原创 2023-06-14 22:20:10 · 107 阅读 · 0 评论 -
Pytorch demo 1
为了完成这一目标,我们首先对每个未规范化的预测求幂,这样可以确保输出非负。为了确保最终输出的概率值总和为1,我们再让每个求幂后的结果除以它们的总和。处理多分类问题,求各个分类的概率。原创 2023-04-04 17:12:28 · 290 阅读 · 0 评论 -
LSTM
LSTM 长短期记忆网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,LSTM 是为了解决 RNN 结构中存在的”梯度消失“的问题而提出的。RNN 只有一个隐状态 h,对短期的输入十分敏感,但是对于长期的输入,就不能很好的记忆其信息,LSTM 设计了 3 个门,输入门、遗忘门和输出门,不仅学习在 t 时刻的隐藏状态 hhh,还会多学习一个 ccc 来形成长期的记忆,使得 LSTM 可以记住长期的信息 LSTM 的输入与输出 在 t 时刻,LSTM 有 三个输入 当前网络的输入值:xtx_txt原创 2020-08-09 13:39:10 · 714 阅读 · 0 评论 -
RNN
RNN ANN 和 CNN 都是假设:元素之间是相互独立的,输入与输出也是相互独立的,但是现实中很多东西是有先后顺序的,比如时间序列,语句等,因此其输出依赖于输入与记忆,一句话解释RNN,就是重复使用一个单元结构;RNN 中多少个输入就有多少层 RNN是一个序列到序列的模型,设 XtX_tXt:表示 t 时刻的输入,oto_tot:表示 t 时刻的输出,StS_tSt:表示 t 时刻的记忆 当前时刻的输出取决于当前时刻的输入和记忆 St=f(U∗Xt+W∗St−1) S_t = f(U*X_t + W原创 2020-07-31 11:07:46 · 217 阅读 · 0 评论 -
Pytorch 基础(1)
自动求梯度 Autograd Tensor 设定属性 .requires_grad 为 True,那么在利用这个张量计算得到其他张量,对结果张量调用 .backward() 来计算所有的梯度时,梯度会保存到 .grad 中 如果不想张量被继续追踪求梯度,可以用 .detach() 或者用 with torch.no_grad() 包裹住代码,这种方法在评估模型的时候很常用,因为在评估模型时,我们并不需要计算可训练参数requires_grad=True的梯度。 Function 类和 Tens原创 2020-07-29 15:33:49 · 414 阅读 · 0 评论 -
使用Word2Vec完成基于文本相似度的推荐
使用 Word2Vec 完成基于文本相似度的推荐 之前的基于文本相似度的推荐使用的是one-hot的词向量,虽然可以使用稀疏向量来存储里面的非0值,但是以这种形式的词向量存在很多问题: 稀疏的向量表达效率是不高的,需要降低词向量的维度 难以发现词之间的关系,以及难以捕捉句子结构和语义之间的关系 使用 Word2Vec 可以得到每个词对应的词向量,它是一个稠密向量,每一维的浮点数的数值大小,表示...原创 2020-11-21 10:59:04 · 1071 阅读 · 1 评论 -
Pytorch 实现逻辑回归
因为项目的原因,要使用逻辑回归进行CTR预估,可以进行权重实时更新,并且对每个用户要使用提前计算好的权重初始化模型(自定义模型权重参数),在sklearn没有找到这个功能,所以自己写一个,顺便练习一下神经网络的写法 步骤: 定义模型 前向求损失 反向求梯度 利用梯度更新模型权重 代码: import torch from torch import nn from torch.autograd ...原创 2020-02-16 12:38:25 · 527 阅读 · 0 评论 -
DL学习 Day1:从线性回归理解神经网络底层构建
线性回归 Day 1 打卡。。。 线性回归的基本要素 评估误差 单个样本的误差 l(i)(w,b)=12(y^(i)−y(i))2,l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2,l(i)(w,b)=21(y^(i)−y(i))2, 小批量样本的误差,对 batch 里面的每个样本求...原创 2020-02-11 23:25:42 · 218 阅读 · 0 评论