机器学习-零散知识

数据B x C x H x W 

Batch Normalization

Batch Normalize和输入预处理一样,只是预处理算mean和var是基于整个训练集,BN是基于1个Batch的数据。BN层算出的mean和var会成为训练时反向传播的一个支路,测试时BN层的mean和var因为只有一个数据没法算,所以用训练时的数值。

对B做归一化,算出C x H x W个mean和var

Instance Normalization

对H x W做归一化,算出B x C个mean和var

Attention 注意力机制C x H x W

首先把非注意的维度压缩至1,再当列向量做Attention

通道注意力:先用maxpool处理-> C x 1 x 1

空间注意力:用卷积-> 1 x H x W

其实也可以不进行压缩:Q K V 都是C x H x W

HW x C * C x L => HW x L

   Q      *      K

HW x L * L x HW => HW x HW   (第一行是Q第一个元素和K所有元素的注意)

                  注意系数  *      V

最终结果:HW x HW * HW x L => HW x L

GAN模式崩溃 原因:

数据映射的分布是离散的,现在网络只能做连续型映射

两块真实数据点间有奇异区域,需要跳过这部分区域

MLA2022  几何观点下的...https://v3.live01.livevtc.com/LiveVideoServer/director.html?gid=10445&key=JCRVFDxLtHfSDKTvthVQ&vid=1687355&rid=136825s

Na Lei's Home Page

神经网络 先验分布、后验、似然

分布:总体样本空间里,各个样本点组成的图就是分布 (仅指样本点散落在空间中组成的图) 

P(X)也叫分布,指随机变量X在总体样本空间中的概率密度函数f(X=xi)。其实和上面也等价:图中有点的位置P(xi)>0,其他位置P(xj)=0

模型假设了每个样本点都是独立、同分布的,

同分布:所有点都是从同一个分布中采样得到,他们可以反应出分布(如:假设是正态分布)的参数

独立:每个样本独立采样得到,

确定的数据集D,每个样本为di,P(D) = P(d1)*P(d2)*P(d3)*... 这时P(D)不是一个分布,而是一个确定的值,因为D是实际采样已确定的。P(di)是概率密度函数

神经网络学习的是一个映射,把样本从特征空间(网络输入)映射到隐空间,每个样本点di映射到zi隐变量,di在样本空间分布中的概率密度P(di)=隐空间概率密度Q(zi)。P(di)=0的地方,Q(zi)也为0。神经网络把样本空间的概率分布映射为隐空间的分布(虽然样本有限,只能映射得真实隐空间分布的近似)

我们想要隐空间的分布能有些好性质,如:根据图是猫还是狗这个定义,把样本集中分成两个团簇。为此,我们让网络迭代更新参数。

如图像分类任务:图片样本-->一维随机变量样本空间(隐变量=猫or狗) A:X>0.5猫   B:X<0.5狗(不是X=0.2这种映射到单个点是考虑到模型泛化,猫也有很多种) 0.5这个界是人为定的(猫标签1,狗0)

我们测试时,拿到一张数据集外的图(特征向量,样本d_new),网络把它映射到隐变量z_new=0.8,所以是猫

【官方双语】贝叶斯定理,使概率论直觉化_哔哩哔哩_bilibili

上面的视频:假设 D= 是图书管理员  非D= 是农民   P(D)= 是图书管理员的概率

            证据 E= 处事有条理

            全体样本(上图每个点) :一个点是一个人,也可以从 面积-->比例 的角度看

            D在横向划分了总体样本空间,E在D和非D内部进一步划分

抛硬币:假设 D1= 硬币均匀程度0.5  D2= 硬币均匀程度0.6 D3= 硬币均匀程度0.7 ...

              证据 E= 抛了2次硬币,一正一反

              全体样本(上图每个点) :一个点是抛了两次硬币的结果(每种结果都有若干个点/面积,相                                                 当于每种结果的概率密度)。不同Di里各种结果的比例(概率)不同,                                                   和硬币均匀程度有关

              Di在横向划分了总体样本空间(划分的大小是各种硬币均匀的先验比例),E在每个Di里划                                                   出了符合现实证据E的样本点/面积(似然概率)

4-垃圾邮件过滤实例_哔哩哔哩_bilibili

垃圾邮件分类:假设 D= 是垃圾邮件 非D= 不是垃圾邮件

                         证据 E= 包含某些词

                         全体样本(上图每个点) :一个点是一篇邮件X=(x1,x3,x6...)  xi是词(不同的特征)

公式: P(x1,x2,...xn|D) = P(x1|D) * P(x2|x1,D) * P(x3|x2,x1,D) *...

假设x1,x2,x3...相互独立(朴素贝叶斯),上式可以简化P(x1,x2,...xn|D) = P(x1|D) * P(x2|D) * P(x3|D) *...

机器学习-白板推导系列(十二)-变分推断(Variational Inference)_哔哩哔哩_bilibili

网络模型 

                        全体样本(上图每个点) :一个点是(x,y)    x:输入值    y:标签/输出值/隐变量

                        模型参数θ 影响概率密度   (x1,y1)0.3 (x1,y2)0.1 (x2,y2)0.1 ...

                        采样的数据集X (x,y)预测 x_new (x9, y1)、 (x9, y2)概率,选概率最大的标签代                                                                                                                                                    表x9

所谓 隐变量 既可以表示模型的输出(标签) ,也可以看成模型的参数。给定输入x=x0时,输出y可以看作模型参数θi根据x0的组合,输出和模型参数可以看成等价的包含了隐藏信息的隐变量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值