统计学习中易混淆概念区分

最新推荐文章于 2024-10-12 17:51:49 发布

赵小越

最新推荐文章于 2024-10-12 17:51:49 发布

阅读量655

点赞数

分类专栏：传统机器学习分类算法的学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/angela2016/article/details/80652456

版权

传统机器学习分类算法的学习专栏收录该内容

25 篇文章

订阅专栏

在本文中，主要记录统计学习方法中，容易被混淆的几个概念的区分和解析。（会不断的进行后续更新）

第一，最大似然估计（Maximum likelihood estimation,MLE）和最大后验概率估计（Maximum a posteriori estimation,MAP）

二者的基础都是贝叶斯公式推导出来的

P(theta|x) = (P(x|thata)P(theta))/P(x)

其中，P(theta|x)后验概率

P(x|theta)条件概率

P(theta)先验概率

似然，可能性的情况，P(x|theta)，若theta已知，也就是x是变量，这个式子为概率函数；若theta为变量，x为已知，这个式子就是似然函数。

最大似然估计是指参数的选择，使得取到已知x的概率最大，即P(x|theta)最大。

最大后验概率估计是指参数的选择，使P(x|theta)P(theta)最大，类似于正则化中加罚项的意思，但正则化中利用的是加法，而MAP中利用的是乘法。而P(x)是一个固定值，所以P(x|thata)P(theta)最大代表最大后验P(theta|x)最大，也就是名字的来源。

第二，近似误差（approximation error）和估计误差(estimation error)

近似误差，是指对现有的训练集的训练误差，近似误差小，说明对现有的数据集的拟合效果比较好，有可能出现过拟合的现象。（近似误差，是度量与最优误差之间的相似程度）

估计误差，是指对未知的测试集的训练误差，估计误差小，说明对未知数据有比较好的预测效果，模型比较接近于真实的模型，是最佳的模型。

（估计误差，是度量预测结果和最优结果的相似程度）

k近邻中，k选择太大，近似误差小，估计误差大；k选择太小，近似误差大，估计误差小。

第三，极大似然估计（Maximum likelihood estimation,MLE）和最大似然估计（maximum likelihood estimation,MLE）

二者，似乎没有区别，但极大似然估计是指利用频率估计概率，估计其出现的可能性，来作为估计的参数，而最大似然估计是求参数使得似然，也就是可能性最大。

第四，熵(entropy)，经验熵(empirical entropy)，条件熵(conditional entropy)，经验条件熵(empirical conditional entropy)

熵一种不确定性的度量，公式我就不打了，因为学了很多遍了，，经验熵是指利用参数估计（尤其是极大似然估计）来得到熵的值，成为了经验熵。

对于条件熵，是指给定X条件下，Y的条件概率分布的熵对X的数学期望，通过利用参数估计（尤其是极大似然估计）来得到熵的值，成为了经验条件熵。

第五，自信息(self-information)和互信息

这些都是在信息论中的概念，自信息的概念定义在变量取某一个值时的概率的负对数，也就说说明如果概率越大，也就是其中蕴含的信息量越少；而对于熵而言，是自信息的加权平均，对应于也就是这个变量的平均的信息量的情况。对于条件熵，是指在给定条件下，某变量的平均信息量的情况，而熵减去条件熵是指在给定条件下信息的不确定性减少的情况，也就是互信息，也可以说从条件下我们可以得到的信息量。（不确定性的减少程度）

I(X;Y) = H(X)-H(X|Y)

I(X;Y) = H(Y)-H(Y|X)

I(X;Y) = H(X)+H(Y)-H(XY)

第六， L1正则化，L2正则化

说到正则化，或者叫做罚项，就不得不说最有名的气的范数的概念了。范数就是对于距离的一种度量，也就是也就是通过不同的手段来度量距离。并且范数有向量范数和矩阵范数二种，我们在这里先讲向量范数，然后对矩阵范数插一脚。

【向量范数】（norm）常见的范数有一范数，二范数，p范数，无穷范数。

【矩阵范数】矩阵范数就比较复杂，我下来会介绍。。接下来补充。。

谈到我们的主角，也就是L1正则化，L2正则化。

【数据的转换】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。