- 博客(7)
- 收藏
- 关注
原创 文字生成模型学习笔记
比如说第一次输出是A,之后放到下一个A变成输入,可能之后输出两个结果B、C(有对应概率),假如我使用Beam Search算法预测两步每次,那么我就要把B、C分别带入下一个输入预测一下可能输出的结果是什么,然后再回过头来看我A输入后导致的输出是选B还是C,假如提前预测三步、四步。所谓自回归模型,就是前一个的预测的y同时作为下一个的输入x。Decoder一开始strat导致的输出是要看encoder的,如上图,通过跟encoder的输出来计算出最后的输出结果,也就是第一个字是什么。输出遇到END便停止。
2025-03-10 20:44:33
315
原创 NLP和Bert学习笔记
上图表示转换器是如何将初始的文字进行提取特征的:q就相当于扫码器,k就是一个二维码,每一个a[i]的q[i]要去跟其他的所有k[i]相乘,最后再与每个v[i]相乘,最后相加得到b也就是处理后的文字向量。以上就是自注意力机制的计算过程,但是还有个问题,文字在不同位置出现的时候也是会不同意思的,即使所有字都一样,所以要进行改进,计算之前也要将位置信息考虑进去。位置信息要配合文字的独热编码性质,变成跟文字向量一样维度的向量,位置也是独热编码表示,相加之后变成带有位置信息的文字向量,再传入转换器中。
2025-03-09 10:30:58
378
原创 无监督学习笔记
自己拥有一张图片,将自己的一部分扣除,剩下的部分当作输入x,最后预测完整的图片,然后把预测的图片和自己原本的完整图片进行对比就形成了Loss。这个时候比如可以把自己的图片进行增广放缩拉伸,得到的图像和自己放的近一点视作一类,让别的类型离的远一点。具体提取出来的特征是什么样的特征是由标签决定的。也可以将不同图片分离出来的特征,结合在一起组成一个新的图片,比如一个图片风格特征和另一个图片的内容特征结合在一起。一个图片通过编码器后解析成为各种特征,这是特征分离,最后进行还原成图片。
2025-03-08 17:17:14
124
原创 Adam优化器
权重衰减的目的是要让模型权重小一点(控制在某一个范围内),以此来减小模型的复杂性,从而抑制过拟合,也可以让模型变得更加平滑。内存需求: 相对于一些简单的优化算法,Adam 需要存储更多的变量(例如一阶和二阶矩估计),这可能会增加计算资源的消耗。超参数调整: 尽管默认的超参数在很多情况下都表现良好,但某些问题可能需要仔细的超参数调整。Weight Decay(权重衰减)的具体公式就是:L=L0+λ/2∣∣W∣∣²。同时参考现在的梯度和过去的梯度,可以帮助跳出局部的极小值点。
2025-03-07 20:52:52
269
原创 分类任务学习(卷积神经网络)笔记
(对于交叉熵损失,可以这样去理解一点公式:现实世界中,出现两个事件,一个事件的发生概率很大,一个事件的发生概率很小,那么两件事同时告诉你会发生的时候,你会认为概率大的事件所传递的信息量很小,概率小的事件所传递的信息量很大,因为概率大的事件稀疏平常。在卷积神经网络中,卷积核去卷积的时候,其实每一个位置的值都充当w参数作用,但是与全连接不同的是它只是选择性连接,例如图中卷积核第一次会和1245配对,那么就有1245与每一个卷积核的所谓的w参数值进行连接,并且最后图中得到的神经元值为2,其他以此类推。
2025-03-07 14:37:56
729
原创 回归项目学习:新冠人数预测
验证集这三者之间的关系。并且最重要的,因为每次使用的只是数据集的一个子集,这在一定程度上可以防止模型过拟合,由于每个批次的数据不同,参数更新会有一定的随机性,这种随机性有助于跳出局部最优解,提高模型的泛化能力。训练模型中干的事情就是将x这个数据输入给模型,使得出一个对应的输出y',而这个y'预测值又要跟真实的输出y进行一个对比,得出两者的误差loss,得出loss之后进行一个回传(也就是计算梯度,进行梯度下降处理,使得loss向着下降最快的方向走),这就形成了一个训练更新模型的步骤。
2025-03-06 18:43:56
924
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人