![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 55
Crossguo
这个作者很懒,什么都没留下…
展开
-
Attention Is All You Need
自注意力首先考虑一句话里面只有两个单词,这两个单词用各自用不同的向量表征。那么这两个向量的相关性可以用内积来表示。然后把这个思想放在多个词当中:这个a12,a13,a14就表示了a1和a2、a3、a4之间的相关性。那么a11,a12,a13,a14就像是权重,如果a4和a1相关性比较高,那么这个权重的值就会更大。这个v1可以看作是a1这个向量本身,拿向量本身与权重做乘法,就得到了受相关性约束的向量,再把这些向量相加得到b1,b1就包含了所有seq的信息了。...原创 2021-12-15 20:00:15 · 784 阅读 · 0 评论 -
【无标题】
第一次训练:第二次训练:第三次训练:第四次训练:第五次训练:第六次训练:第七次训练:第八次训练:第九次训练:第十次训练:原创 2021-11-22 15:34:09 · 1797 阅读 · 0 评论 -
pytorch ——线性回归
pytorch ——线性回归1.读取数据2.设定模型和loss function3.训练模型设定数据集先设定好真实的w和b,以及x是什么, y是什么:true_w = [2, -3.4]true_b = 4.2batch_size = 10为什么w十个二维向量呢?因为设定模型的时候就有两个参数。具体一点说,x1是房屋面积,而x2是房龄。w1和w2是两个参数的权重。得出的y是房屋的售价。然后我们首先设定x是取一个随机数,但是是二维的,因为x1和x2嘛。features = torch.原创 2021-10-11 21:43:11 · 464 阅读 · 0 评论 -
2021-09-06
21年9月6日———有关深度学习的Tips**在训练的结果中,训练集和测试集都可能不会达到预期的结果,对于训练集结果不好的原因有:1.模型的架构有问题2.学习率的问题而对于测试集可能的原因是:1.早停2.正则化3.Dropout**首先针对训练集中模型的架构有问题进行解析:那么首先要知道一个现象叫做Vanishing Gradient Problem意思是说,因为sigmoid函数的存在,导致输入的变化并不会产生线性的输出变化(输出的变化率低于输入的变化率),如图所示:因此在多层的原创 2021-09-06 20:37:41 · 68 阅读 · 0 评论