数据B x C x H x W
Batch Normalization
Batch Normalize和输入预处理一样,只是预处理算mean和var是基于整个训练集,BN是基于1个Batch的数据。BN层算出的mean和var会成为训练时反向传播的一个支路,测试时BN层的mean和var因为只有一个数据没法算,所以用训练时的数值。
对B做归一化,算出C x H x W个mean和var
Instance Normalization
对H x W做归一化,算出B x C个mean和var
Attention 注意力机制C x H x W
首先把非注意的维度压缩至1,再当列向量做Attention
通道注意力:先用maxpool处理-> C x 1 x 1
空间注意力:用卷积-> 1 x H x W
其实也可以不进行压缩:Q K V 都是C x H x W
HW x C * C x L => HW x L
Q * K
HW x L * L x HW => HW x HW (第一行是Q第一个元素和K所有元素的注意)
注意系数 * V
最终结果:HW x HW * HW x L => HW x L
GAN模式崩溃 原因:
数据映射的分布是离散的,现在网络只能做连续型映射
两块真实数据点间有奇异区域,需要跳过这部分区域
MLA2022 几何观点下的...https://v3.live01.livevtc.com/LiveVideoServer/director.html?gid=10445&key=JCRVFDxLtHfSDKTvthVQ&vid=1687355&rid=136825s
神经网络 先验分布、后验、似然
分布:总体样本空间里,各个样本点组成的图就是分布 (仅指样本点散落在空间中组成的图)
P(X)也叫分布,指随机变量X在总体样本空间中的概率密度函数f(X=xi)。其实和上面也等价:图中有点的位置P(xi)>0,其他位置P(xj)=0
模型假设了每个样本点都是独立、同分布的,
同分布:所有点都是从同一个分布中采样得到,他们可以反应出分布(如:假设是正态分布)的参数
独立:每个样本独立采样得到,
确定的数据集D,每个样本为di,P(D) = P(d1)*P(d2)*P(d3)*... 这时P(D)不是一个分布,而是一个确定的值,因为D是实际采样已确定的。P(di)是概率密度函数
神经网络学习的是一个映射,把样本从特征空间(网络输入)映射到隐空间,每个样本点di映射到zi隐变量,di在样本空间分布中的概率密度P(di)=隐空间概率密度Q(zi)。P(di)=0的地方,Q(zi)也为0。神经网络把样本空间的概率分布映射为隐空间的分布(虽然样本有限,只能映射得真实隐空间分布的近似)
我们想要隐空间的分布能有些好性质,如:根据图是猫还是狗这个定义,把样本集中分成两个团簇。为此,我们让网络迭代更新参数。
如图像分类任务:图片样本-->一维随机变量样本空间(隐变量=猫or狗) A:X>0.5猫 B:X<0.5狗(不是X=0.2这种映射到单个点是考虑到模型泛化,猫也有很多种) 0.5这个界是人为定的(猫标签1,狗0)
我们测试时,拿到一张数据集外的图(特征向量,样本d_new),网络把它映射到隐变量z_new=0.8,所以是猫
【官方双语】贝叶斯定理,使概率论直觉化_哔哩哔哩_bilibili
上面的视频:假设 D= 是图书管理员 非D= 是农民 P(D)= 是图书管理员的概率
证据 E= 处事有条理
全体样本(上图每个点) :一个点是一个人,也可以从 面积-->比例 的角度看
D在横向划分了总体样本空间,E在D和非D内部进一步划分
抛硬币:假设 D1= 硬币均匀程度0.5 D2= 硬币均匀程度0.6 D3= 硬币均匀程度0.7 ...
证据 E= 抛了2次硬币,一正一反
全体样本(上图每个点) :一个点是抛了两次硬币的结果(每种结果都有若干个点/面积,相 当于每种结果的概率密度)。不同Di里各种结果的比例(概率)不同, 和硬币均匀程度有关
Di在横向划分了总体样本空间(划分的大小是各种硬币均匀的先验比例),E在每个Di里划 出了符合现实证据E的样本点/面积(似然概率)
垃圾邮件分类:假设 D= 是垃圾邮件 非D= 不是垃圾邮件
证据 E= 包含某些词
全体样本(上图每个点) :一个点是一篇邮件X=(x1,x3,x6...) xi是词(不同的特征)
公式: P(x1,x2,...xn|D) = P(x1|D) * P(x2|x1,D) * P(x3|x2,x1,D) *...
假设x1,x2,x3...相互独立(朴素贝叶斯),上式可以简化P(x1,x2,...xn|D) = P(x1|D) * P(x2|D) * P(x3|D) *...
机器学习-白板推导系列(十二)-变分推断(Variational Inference)_哔哩哔哩_bilibili
网络模型
全体样本(上图每个点) :一个点是(x,y) x:输入值 y:标签/输出值/隐变量
模型参数θ 影响概率密度 (x1,y1)0.3 (x1,y2)0.1 (x2,y2)0.1 ...
采样的数据集X (x,y)预测 x_new (x9, y1)、 (x9, y2)概率,选概率最大的标签代 表x9
所谓 隐变量 既可以表示模型的输出(标签) ,也可以看成模型的参数。给定输入x=x0时,输出y可以看作模型参数θi根据x0的组合,输出和模型参数可以看成等价的包含了隐藏信息的隐变量