机器学习基础知识（二） ---- 基础知识集锦

最新推荐文章于 2021-06-23 18:16:03 发布

china1000

最新推荐文章于 2021-06-23 18:16:03 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/china1000/article/details/25922831

版权

数据挖掘专栏收录该内容

32 篇文章 7 订阅

订阅专栏

1. L1正则化与L2正则化：

在特征比较多而训练样本比较少的时候，很有可能会出现过度拟合的现象。一般情况下这样就需要添加Theta参数进行正则化。

L1正则化：使用曼哈顿距离，参数取值相减的绝对值。假设参数服从拉普拉斯分布。

L2正则化：使用欧几里德距离。假设参数服从拉普拉斯分布。

拉普拉斯分布和高斯分布的分布图：（图中，拉普拉斯分布更为尖锐，高斯分布更加平缓）。

两种正则化的优缺点对比：

L1正则化之后是不连续的，会给工程使用带来新的问题，但比较Robust。

L2正则化对噪声比较敏感。

2. KL Divergence 相对熵：

KL-Divergenc，俗称KL距离，常用来衡量两个概率分布的距离。

根据香农理论，给定一个字符集的概率分布，我们可以设计一种编码，使得该字符集组成的字符平均需要的比特数最少。假设一个字符集是X，对于x假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数目等于这个字符集的熵：

H(X)=∑x∈XP(x)log[1/P(x)]。

假设在同样的字符集上存在另外一个概率分布Q(x)，如果使用概率分布P(X)的最优编码（即字符x的编码长度等于log[1/P]），来为符合分布Q(X)的字符编码，那么表示这些字符就会比理想情况下多用一些比特数。KL-divergence就是用来衡量这种情况下每个字符多用的比特数，因此可以用来衡量两个分布的距离。即：

DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))] - ∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]。因为KL-divergence是始终大于零的。当且仅当两个分布相同时，KL-divergence等于0.

DKL(Q||P) = -∑x∈XQ(x)log[P(x)/Q(x)] = E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑x∈XQ(x)P(x)/Q(x) = 0

3. 卡方检验：

卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的（行话就叫做“原假设”），然后观察实际值（也可以叫做观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度，如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，我们就认为两者实际上是相关的，即否定原假设，而接受备择假设。

4. 互信息：

卡方检验：http://blog.csdn.net/wermnb/article/details/6628555