机器学习-零散知识

ALIVE16:40

已于 2023-03-31 18:53:44 修改

阅读量84

点赞数

文章标签：神经网络深度学习

于 2022-11-16 15:57:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37125419/article/details/127887025

版权

数据B x C x H x W

Batch Normalization

Batch Normalize和输入预处理一样，只是预处理算mean和var是基于整个训练集，BN是基于1个Batch的数据。BN层算出的mean和var会成为训练时反向传播的一个支路，测试时BN层的mean和var因为只有一个数据没法算，所以用训练时的数值。

对B做归一化，算出C x H x W个mean和var

Instance Normalization

对H x W做归一化，算出B x C个mean和var

Attention 注意力机制C x H x W

首先把非注意的维度压缩至1，再当列向量做Attention

通道注意力：先用maxpool处理-> C x 1 x 1

空间注意力：用卷积-> 1 x H x W

其实也可以不进行压缩：Q K V 都是C x H x W

HW x C * C x L => HW x L

Q * K

HW x L * L x HW => HW x HW (第一行是Q第一个元素和K所有元素的注意)

注意系数 * V

最终结果：HW x HW * HW x L => HW x L

GAN模式崩溃原因：

数据映射的分布是离散的，现在网络只能做连续型映射

两块真实数据点间有奇异区域，需要跳过这部分区域

MLA2022 几何观点下的...https://v3.live01.livevtc.com/LiveVideoServer/director.html?gid=10445&key=JCRVFDxLtHfSDKTvthVQ&vid=1687355&rid=136825s

Na Lei's Home Page

神经网络先验分布、后验、似然

分布：总体样本空间里，各个样本点组成的图就是分布 (仅指样本点散落在空间中组成的图)

P(X)也叫分布，指随机变量X在总体样本空间中的概率密度函数f(X=xi)。其实和上面也等价：图中有点的位置P(xi)>0,其他位置P(xj)=0

模型假设了每个样本点都是独立、同分布的，

同分布：所有点都是从同一个分布中采样得到，他们可以反应出分布(如：假设是正态分布)的参数

独立：每个样本独立采样得到，

确定的数据集D，每个样本为di,P(D) = P(d1)*P(d2)*P(d3)*... 这时P(D)不是一个分布，而是一个确定的值，因为D是实际采样已确定的。P(di)是概率密度函数

神经网络学习的是一个映射，把样本从特征空间(网络输入)映射到隐空间，每个样本点di映射到zi隐变量，di在样本空间分布中的概率密度P(di)=隐空间概率密度Q(zi)。P(di)=0的地方，Q(zi)也为0。神经网络把样本空间的概率分布映射为隐空间的分布(虽然样本有限，只能映射得真实隐空间分布的近似)

我们想要隐空间的分布能有些好性质，如：根据图是猫还是狗这个定义，把样本集中分成两个团簇。为此，我们让网络迭代更新参数。

如图像分类任务：图片样本-->一维随机变量样本空间(隐变量=猫or狗) A:X>0.5猫 B:X<0.5狗(不是X=0.2这种映射到单个点是考虑到模型泛化，猫也有很多种) 0.5这个界是人为定的(猫标签1，狗0)

我们测试时，拿到一张数据集外的图(特征向量，样本d_new)，网络把它映射到隐变量z_new=0.8，所以是猫

【官方双语】贝叶斯定理，使概率论直觉化_哔哩哔哩_bilibili

上面的视频：假设 D= 是图书管理员非D= 是农民 P(D)= 是图书管理员的概率

证据 E= 处事有条理

全体样本(上图每个点) ：一个点是一个人，也可以从面积-->比例的角度看

D在横向划分了总体样本空间，E在D和非D内部进一步划分

抛硬币：假设 D1= 硬币均匀程度0.5 D2= 硬币均匀程度0.6 D3= 硬币均匀程度0.7 ...

证据 E= 抛了2次硬币，一正一反

全体样本(上图每个点) ：一个点是抛了两次硬币的结果(每种结果都有若干个点/面积，相当于每种结果的概率密度)。不同Di里各种结果的比例(概率)不同，和硬币均匀程度有关

Di在横向划分了总体样本空间(划分的大小是各种硬币均匀的先验比例)，E在每个Di里划出了符合现实证据E的样本点/面积(似然概率)

4-垃圾邮件过滤实例_哔哩哔哩_bilibili

垃圾邮件分类：假设 D= 是垃圾邮件非D= 不是垃圾邮件

证据 E= 包含某些词

全体样本(上图每个点) ：一个点是一篇邮件X=(x1,x3,x6...) xi是词(不同的特征)

公式: P(x1,x2,...xn|D) = P(x1|D) * P(x2|x1,D) * P(x3|x2,x1,D) *...

假设x1,x2,x3...相互独立(朴素贝叶斯),上式可以简化P(x1,x2,...xn|D) = P(x1|D) * P(x2|D) * P(x3|D) *...

机器学习-白板推导系列(十二)-变分推断（Variational Inference）_哔哩哔哩_bilibili

网络模型

全体样本(上图每个点) ：一个点是(x,y) x:输入值 y:标签/输出值/隐变量

模型参数θ 影响概率密度 (x1,y1)0.3 (x1,y2)0.1 (x2,y2)0.1 ...

采样的数据集X （x,y）预测 x_new (x9, y1)、 (x9, y2)概率，选概率最大的标签代表x9

所谓隐变量既可以表示模型的输出(标签) ，也可以看成模型的参数。给定输入x=x0时，输出y可以看作模型参数θi根据x0的组合，输出和模型参数可以看成等价的包含了隐藏信息的隐变量

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-零散知识

数据映射的分布是离散的，现在网络只能做连续型映射。两块真实数据点间有奇异区域，需要跳过这部分区域。MLA2022 几何观点下的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。