- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 注意力中的尺度放缩详解
直接上干货!!!在注意力中我们经常看到以下公式:scoreatten=softmax(QKTdk)score_{atten}=softmax(\frac{QK^T}{\sqrt{d_k}})scoreatten=softmax(dkQKT)为什么就要除以dkd_{k}dk呢?要除的话为什么要除以它而不是其他数呢?这是因为存在以下推导:(QKT)mn=∑idkqmikin(QK^T)_{mn}=\sum_i^{d_k}q_{mi}k_{in}(QKT)mn=i∑dkqmikin
2021-11-30 15:33:19 768
原创 torch.gather()函数详解
input:[[1,2,3],[4,5,6],[7,8,9]]index:[[2,1,0],[1,0,1]]如上已经给定了输入和索引,先假设dim=0根据index,其本身元素的索引有(0,0)、(0,1)、(0,2)、(1,0)、(1,1)、(1,2)因为设置dim=0,所以将index中的元素在dim=0这个维度进行替换,即得到(2,0)、(1,1)、(0,2)、(1,0)、(0,1)、(1,2),根据替换后的索引在input找值,得到输出output:[[7
2021-10-18 15:34:58 144
原创 机器学习||贝叶斯详解
文章目录机器学习||贝叶斯1.贝叶斯方法2.朴素贝叶斯方法3.拉普拉斯平滑机器学习||贝叶斯1.贝叶斯方法假设有C个类别,记为{w1,w2,...,wj,...wC}\{w_1,w_2,...,w_j,...w_C\}{w1,w2,...,wj,...wC},有样本xxx。分类器的分类错误概率是指xxx被分类成错误类的概率,用公式表达如下:p(error∣x)=∑jp(wj∣x),for x∈wi,i≠jp(error|x)=\sum _jp(w_j|x), for\space
2020-12-11 14:51:36 176
原创 tf.nn.avg_pooling踩坑
tensorflow之平均池化首先说一下我遇到的情况,刚开始学tensorflow,接触到池化pooling操作,其中有最大池化max_pooling、平均池化avg_pooling,其中平均池化avg_pooling资料上着重写的是用池化filter范围内的输入矩阵元素总和除以非零元素个数。上代码:import tensorflow as tf img=tf.constant([ ...
2020-03-01 17:00:29 1577 1
神经网络的经典matlab实现
2018-06-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人