统计学习中易混淆概念区分

在本文中,主要记录统计学习方法中,容易被混淆的几个概念的区分和解析。(会不断的进行后续更新)

第一,最大似然估计(Maximum likelihood estimation,MLE)和最大后验概率估计(Maximum a posteriori estimation,MAP)

二者的基础都是贝叶斯公式推导出来的

P(theta|x) = (P(x|thata)P(theta))/P(x)

其中,P(theta|x)后验概率

         P(x|theta)条件概率

         P(theta)先验概率

似然,可能性的情况,P(x|theta),若theta已知,也就是x是变量,这个式子为概率函数;若theta为变量,x为已知,这个式子就是似然函数。

最大似然估计是指参数的选择,使得取到已知x的概率最大,即P(x|theta)最大。

最大后验概率估计是指参数的选择,使P(x|theta)P(theta)最大,类似于正则化中加罚项的意思,但正则化中利用的是加法,而MAP中利用的是乘法。而P(x)是一个固定值,所以P(x|thata)P(theta)最大代表最大后验P(theta|x)最大,也就是名字的来源。

第二,近似误差(approximation error)和估计误差(estimation error)

近似误差,是指对现有的训练集的训练误差,近似误差小,说明对现有的数据集的拟合效果比较好,有可能出现过拟合的现象。(近似误差,是度量与最优误差之间的相似程度)

估计误差,是指对未知的测试集的训练误差,估计误差小,说明对未知数据有比较好的预测效果,模型比较接近于真实的模型,是最佳的模型。

(估计误差,是度量预测结果和最优结果的相似程度)

k近邻中,k选择太大,近似误差小,估计误差大;k选择太小,近似误差大,估计误差小。

第三,极大似然估计(Maximum likelihood estimation,MLE)和最大似然估计(maximum likelihood estimation,MLE)

二者,似乎没有区别,但极大似然估计是指利用频率估计概率,估计其出现的可能性,来作为估计的参数,而最大似然估计是求参数使得似然,也就是可能性最大。

第四,熵(entropy),经验熵(empirical entropy),条件熵(conditional entropy),经验条件熵(empirical conditional entropy)

熵一种不确定性的度量,公式我就不打了,因为学了很多遍了,,经验熵是指利用参数估计(尤其是极大似然估计)来得到熵的值,成为了经验熵。

对于条件熵,是指给定X条件下,Y的条件概率分布的熵对X的数学期望,通过利用参数估计(尤其是极大似然估计)来得到熵的值,成为了经验条件熵。

第五,自信息(self-information)和互信息

        这些都是在信息论中的概念,自信息的概念定义在变量取某一个值时的概率的负对数,也就说说明如果概率越大,也就是其中蕴含的信息量越少;而对于熵而言,是自信息的加权平均,对应于也就是这个变量的平均的信息量的情况。对于条件熵,是指在给定条件下,某变量的平均信息量的情况,而熵减去条件熵是指在给定条件下信息的不确定性减少的情况,也就是互信息,也可以说从条件下我们可以得到的信息量。(不确定性的减少程度)

I(X;Y) = H(X)-H(X|Y)

I(X;Y) = H(Y)-H(Y|X)

I(X;Y) = H(X)+H(Y)-H(XY)

第六, L1正则化,L2正则化

         说到正则化,或者叫做罚项, 就不得不说最有名的气的范数的概念了。范数就是对于距离的一种度量,也就是也就是通过不同的手段来度量距离。并且范数有向量范数和矩阵范数二种,我们在这里先讲向量范数,然后对矩阵范数插一脚。

         【向量范数】(norm)常见的范数有一范数,二范数,p范数,无穷范数。

          【矩阵范数】矩阵范数就比较复杂,我下来会介绍。。接下来补充。。

     谈到我们的主角,也就是L1正则化,L2正则化。

【数据的转换】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值