![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
qq_44976409
这个作者很懒,什么都没留下…
展开
-
Bug解决-TypeError: transpose() received an invalid combination of arguments - got (int, int, int, int)
transpose permute原创 2023-02-15 10:20:40 · 174 阅读 · 0 评论 -
pytorch卷积操作nn.Conv中的groups参数用法解释
pytorch卷积操作nn.Conv中的groups参数用法解释https://blog.csdn.net/cxx654/article/details/109681004原创 2021-09-14 11:05:18 · 123 阅读 · 0 评论 -
如何判断张量(tensor)的维度呢?
一文搞懂tensor看左边的第一个方括号([ )里面包含了几个元素,这里的元素是以([ ])为一组,因此a=2;再看第二个方括号([ )里包含了几个元素,这里的元素是以([ ])为一组,因此b=3;最后看第三个方括号([ )里面的元素个数,由于这是最后一维数据了,因此直接数这组括号里面的元素个数,因此c=1.因此a.size()=([2,3,1])https://blog.csdn.net/qq_43332629/article/details/106092700https://zhuanlan.原创 2021-09-14 11:01:25 · 343 阅读 · 0 评论 -
《Attention Is All You Need》注意力机制公式中Q,K,V的理解
《Attention Is All You Need》注意力机制公式中Q,K,V的理解一、概述《Attention Is All You Need》是一篇关于注意力机制里程碑的文章,从2017年发表至今2020年7月已经获得了上万的引用。该文的两大亮点一是提出了一个几乎仅依靠注意力来完成机器翻译的模型Transformer,推动了NLP的发展,另外一个亮点是改进了点积注意力(Dot-Product Attention),加入了一个缩放因子,提出了可伸缩点积注意力(Scaled Dot-Product A原创 2021-09-11 18:06:52 · 2366 阅读 · 1 评论 -
pytorch 学习率调整策略
学习率调整策略学习率直接控制参数更新的步伐。通常在训练中,一开始学习率可以给的比较大,让参数更新的步伐大一些。后期,让学习率小一些,让参数更新的步伐小一些。学习率调整是以epoch为周期的。千万不要在iteration中。在pytorch中提供了很好的学习率调整策略。这六种策略都是继承于_LRScheduler这个基类。所以,我们先来学这个类的基本属性和基本方法。optimizer:关联的优化器。在讲优化器的时候,我们知道,在优化器中才存放学习率。而_LRScheduler会去修改优化器中的学习率原创 2021-08-27 16:46:01 · 229 阅读 · 0 评论