文章目录
简单的概念:
相似度(Similarity) | 两个对象相似程度的数值度量,两对象越相似,它们的相似度就越高 |
相异度(Dissimilarity) | …和上面概念相反 |
互信息(Mutual Information) | 衡量随机变量之间相互依赖程度的度量。比如云的颜色和是否下雨的互依赖程度。 |
信息熵 | 度量一个属性的信息量 |
信息增益 | 信息增益是已知某条件前数据集的熵,和已知某条件后数据集的熵 |
的差值
熵(entropy,也称信息熵)
- 假定S为训练集,S的目标属性C具有m个可能的类标号值,
C={C1,C2,…,Cm} - 假定训练集S中,Ci在所有样本中出现的概率为 pi (i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:
熵越小表示样本对目标属性的分布越纯,
反之熵越大表示样本对目标属性分布越混乱。
所以,通过上面公式可以看出来,当Pi = 1的时候,信息熵=0,最小。
也就意味着,所有样本的目标属性取值相同 。
信息增益
"是已知某条件前数据集的熵,和已知某条件后数据集的熵的差值"
假设原始数据集为
- 已知属性A的意思为按属性A划分S;
- 则已知属 性A后带来的信息增益Gain(S,A),
为样本集S的熵减去按属性A划分S后的样本子集的熵:
按属性A划分S后的熵 的定义:
假定属性A有k个不同的取值,从而
将S划分为k个样本子集{S1,S2,…,Sk}
则 按属性A划分S后的信息熵为:
- 其中 |Si| (i=1,2,…k)为样本子集 Si 中包含的样本数,|S|为样本集S中包含
的样本数。- 信息增益越大&