- 博客(4)
- 收藏
- 关注
原创 Transformer机制理解
比如我们有一个transform把所有人都放到旋转场地(query),再通过一个transform代表他们产生不同的表现眩晕呕吐心率平稳(key),然后对每个人来说,再通过一个transform代表他们自己想要提升的能力(value), 他想要通过自己和别人的差距来选择提升自己哪一方面的能力(点积代表了两个向量的距离),可能是吸收与自己类似的,可能是排斥与自己差别大的。设想一个这样一个制作的过程,女娲做了一群比较原始的人类,代表一堆向量,他们有一些基础的特征,身高、男女、跑跳能力、会用石器等;
2023-12-10 12:26:13 31
原创 论文精读【ResNet】
2 假设浅层的输出为H(x), 然后残差模块学习Y-H(x),即残差模块F 为F(H(x))的收敛目标为Y-H(x), 以Y为训练样本的话,残差模块输出为F(H(x)) + H(x)3 "bottlenect"设计是在深层结构通道数增加的时候,做残差模块资源消耗比较大,可以通过1维卷积将特征通道降维,再做空间卷积,再在残差模块输出的时候将特征通道投影回去。理论上更加深度的网络是不应该训练比浅层的网络效果差的,因为多的层理论上可以输出和浅层一项的特征输出(identity mapping)
2023-05-03 16:43:18 173 1
原创 论文精读【AlexNet】
3. 作者其实忽略了一个现在看来比较重要的点,end to end, 区别之更早之前的NN, CNN, 其他机器学习方法等,AlexNet的输入直接是rgb通道的二维图片,而非做预先的特征提取如SIFT等。1. 提出了深度CNN概念,在AlexNet之前其实已经有CNN的系列文章提出,但基本上受到了训练速度的限制没有流行,AlexNet由于其非常好的表现,引起了人们的注意。2. 提出了一个完整的网络架构,深度卷积层,relu, 全连接, pooling, 激活层, 以及训练的SGD。
2023-04-09 19:02:29 57 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人