文章目录
统计学习方法
- 李航将统计学习方法 分成三个部分 (模型、策略、算法)
-
模型不必多说 (like 决策树、SVM 、线性回归、逻辑回归 )
- 确定包含所有可能的模型的假设空间,即学习模型的集合
-
策略对应优化模型参数的目标方向和目标函数 (like 对数损失函数 风险函数 目标函数 【但要注意三者的区别】)
- 确定模型选择的准则,即学习的策略
损失函数/代价函数度量模型一次预测的好坏【在数据集上的 给定预测值和真实值之间的非负实值函数】
风险函数度量平均意义下模型预测的好坏【平均意义i下的损失,反应了对整个数据的预测效果的好坏】。
结构风险和经验风险\经验损失是用来逼近风险函数的 -
算法对应求解模型参数的方法(like 极大似然估计、贝叶斯估计、拟牛顿法、梯度下降法)
-
监督学习的模型
决策函数和条件概率分布 两种形式
对于决策函数来说 ,你要概率,y就是概率的数字大小 【概率模型】;你要分类,y就是分类的id 【非概率模型】
对于条件概率分布来说,如果要概率就是本身【概率模型】;如果是分类问题,就取
a
r
g
m
a
x
y
P
(
Y
∣
X
)
argmax_{y}P(Y|X)
argmaxyP(Y∣X) 【非概率模型】
不错,还有另一种分类方式,就是概率模型和非概率模型。
### 监督学习的方法 生成方法(generative method)(得到的就是生成模型)和判别方法(得到的就是判别模型) ![在这里插入图片描述](https://img-blog.csdnimg.cn/2019082820544283.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hlc3lfSA==,size_16,color_FFFFFF,t_70)
- 判别模型有两种形式,前者就对应决策函数,后者对应条件概率分布模型
- 生成模型只有一种,但是要用到P(X,Y)的联合分布信息
第一种形式不考虑X和Y的随机性,第二种形式考虑到了Y的随机性, 第三种形式两者的随机性都考虑到了
第二章的感知机就对应的是最左边,朴素贝叶斯就是最右边的
泛函
- 泛函就是定义域是一个函数集,而值域是实数集或者实数集的一个子集,推广开来, 泛函就是从任意的向量空间到标量的映射。也就是说,它是从函数空间到数域的映射。
极大似然估计 Maximum Likelihood Estimation,MLE
-
就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
- 是一个用于估计已定模型的参数的方法
-
需要满足一个假设:就是所有的采样都是独立同分布的。
-
似然 通过样本反过来猜测总体的情况(其实是给出了隐含背后的模型)
似然估计 通过自己似然得到的参数的值
最大似然估计( MLE ) 根据似然得到的最可能的参数
概念辨析
- p( x x x| θ \theta θ) 输入有两个: x x x表示某一个具体的数据; θ \theta θ表示模型的参数
- 如果 θ \theta θ是已知确定的, x x x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 [公式] ,其出现概率是多少。
- 如果 x x x是已知确定的, θ \theta θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现 x x x这个样本点的概率是多少。
似乎不错的链接 TL DR
https://www.cnblogs.com/LittleHann/p/7823421.html#_lab2_3_2
贝叶斯估计 Bayesian Estimation
- 极大似然估计(频率学派观点)和贝叶斯估计(贝叶斯学派观点)是统计推断中两种最常用的参数估计方法。
极大似然估计和贝叶斯估计的区别
- 上面这段讲解很重要而很清晰!(但是二者区别还是在下方说得比较清楚)
频率学派和贝叶斯学派的区别
cnblogs.com/Luv-GEM/p/10638480.html
- 这个链接说得贼清楚
- 先验分布 π ( θ ) \pi (\theta) π(θ) 描述根据长期经验的到的 θ \theta θ出现的概率, 主观性比较强 , 跟样本无关联
- 后验分布 不同情况下我们的 θ \theta θ的概率其实会稍有波动,所以我们根据样本进行修正,也就是在样本出现的情况下的 θ \theta θ分布,即 π \pi π ( θ \theta θ| x x x )
- 两个学派的根本区别就是有没有利用先验知识。频率学派认为先验知识不靠谱,样本最大,直接根据样本进行预测,贝叶斯则利用了先验知识求解、预测
最大后验估计 Maximum Aposteriori estimation,MAP
- 与其说这是两种方法 不如说这是两种思想,所以这两者不相互违背,甚至可以合在一起用 ? 就会诞生最大后验估计
我觉得它这里讲的不好的一个地方是: “由于
m
(
x
)
m(x)
m(x) 与
θ
\theta
θ无关,因此简化了计算。” 应该这么说:由于求argmax的时候,大家分母都一样,就直接可以转换成比较分子了啊
- 相比于贝叶斯估计,一来不用求后验(也就是分母,求分母的时候得遍历所有样本点一次),二来不用求期望(求期望又得遍历所有
θ
\theta
θ的采样点一次),省了很多!
- 所以截图中说这是贝叶斯估计的一个近似解
对数损失函数
- 对数损失函数蕴含了极大似然估计的想法在里面
- L(Y, P(Y|X))这个对数损失函数的意思是指分类为Y的情况下,使P(Y|X)达到最大(然后多个样本共同出现的概率则是他们相乘(注意,假设前提是样本独立) )。
- 单单这样不够,因为我们现在要最大化
∏
P
(
Y
∣
X
)
\prod P(Y|X)
∏P(Y∣X),加个负号变成最小化,也符合损失函数的名字(哦对了,取对数就是为了把累乘变成累加 :) )
补充
损失函数、目标函数和代价函数的区别
ref @ https://www.zhihu.com/question/52398145
简单来讲
- Loss Function 是定义在单个样本上的,算的是一个样本的误差。
- Cost Function 是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
- Object Function(目标函数 )定义为:Cost Function + 正则化项。
detail
-
我们用**损失函数(loss function)来度量单个样本的预测结果和实际结果的误差程度,用代价函数(cost function)**来度量整个训练集上样本的拟合的程度。代价函数越小,就代表模型在这个数据集合上拟合的越好。
-
风险函数
- 风险函数是损失函数的期望,这是由于我们输入输出的(X,Y)遵循一个联合分布,但是这个联合分布是未知的,我们无法计算。【我们训练的目标就是要风险函数最小化】
- 我们用训练机上的平均损失来近似风险函数。训练集合上的平均损失称作经验风险(empirical risk),我们的目标是称为经验风险最小化。(大数定律:样本足够大是,经验风险可以趋近损失函数的期望)
- 但是由于我们的数据实际上没有趋近于无穷,所以为了防止学习的时候过拟合于这个训练集导致参数偏离正确优化方向,我们还要让结构风险最小化以进行对模型的参数进行修正,所以引入了结构风险最小化。
-
目标函数
- 到这一步我们就可以说我们最终的优化函数是:Cost Function【经验风险】+ 正则化项【结构风险】,而这个函数就被称为目标函数。
- 到这一步我们就可以说我们最终的优化函数是:Cost Function【经验风险】+ 正则化项【结构风险】,而这个函数就被称为目标函数。
存疑
- 极大似然估计就是最大似然估计?
- 还没看完 https://zhuanlan.zhihu.com/p/61593112 还差一点接着