![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
transformer
文章平均质量分 56
晓源Galois
找工作状态
展开
-
Transformer|Encoder(未完成)
比如说已经得到腰围和体重的两份数据,此时给出一个查询——腰围为57的人的体重为多少?可以根据以往的腰围数据对体重进行估计,比如说腰围为56的体重为43,腰围为58的人体重为48,那么腰围为57的人体重应该介于43和48之间。而“一半的作用”就是所谓的权重系数(注意力权重,为了得出结果应该放多少注意力到这个级别的体重上来),而这个权重系数需要计算出来。而不妨假设43占一半的作用,48占一半的作用,所以预测的体重为45.5.得到注意力权重系数后,我们就可以对查询对应的结果进行进一步的估计了。原创 2024-02-02 11:13:18 · 236 阅读 · 0 评论 -
transformer | transformer的输入部分input coding
然后统计byte gram,选出出现次数最多的byte gram,将其塞入到词表中,若组成的byte gram使得原本单独的部分无其他非组成该byte gram的情况,则该部分需要从原先的词表进行删除。然后向量是具有空间的,通过和积化差可以得到这个向量是由于某些向量线性组合而成,而线性组合也有对应的空间表示,从而通过线性组合区分位置关系。(位置信息是很重要的,词的意思可通过上下文进一步明确,上文放在下文,可能就有不同的意思存在)pos是指位置,比如说“我爱你”中的“爱”的位置为第二。原创 2024-01-30 17:32:28 · 1319 阅读 · 2 评论 -
Transformer|1.4 CNN遇到的问题与窘境
而CNN在多层卷积后才有这个机会。(比如最开始是3x3的卷积,下一层是9x9的卷积,只有在下一层时才能够看到其他8个3x3的卷积部分)判断一个人是否为美人,既要看她各个五官,也要看她各个五官占的比例和协调。局部信息用小的感受野进行感受,而全局信息用大的感受野进行感受。0号token在第一层就可以看到其它所有的token。既要照顾好局部信息,也要照顾好全局信息。原创 2024-01-20 23:55:14 · 579 阅读 · 0 评论 -
Transformer|对图像数据构造patch序列+VIT整体架构解读(需进一步完善)
使其关注到所值得关注的。原创 2024-01-20 12:05:03 · 439 阅读 · 0 评论