DM——数据处理基础:距离和相似性


简单的概念:

相似度(Similarity) 两个对象相似程度的数值度量,两对象越相似,它们的相似度就越高
相异度(Dissimilarity) …和上面概念相反
互信息(Mutual Information) 衡量随机变量之间相互依赖程度的度量。比如云的颜色和是否下雨的互依赖程度。
信息熵 度量一个属性的信息量
信息增益 信息增益是已知某条件前数据集的熵,和已知某条件后数据集的熵

的差值

熵(entropy,也称信息熵)

  • 假定S为训练集,S的目标属性C具有m个可能的类标号值,
    C={C1,C2,…,Cm}
  • 假定训练集S中,Ci在所有样本中出现的概率为 pi (i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:在这里插入图片描述

熵越小表示样本对目标属性的分布越纯,
反之熵越大表示样本对目标属性分布越混乱。


所以,通过上面公式可以看出来,当Pi = 1的时候,信息熵=0,最小。
也就意味着,所有样本的目标属性取值相同 。


信息增益

"是已知某条件前数据集的熵,和已知某条件后数据集的熵的差值"

假设原始数据集为

  • 已知属性A的意思为按属性A划分S;
  • 则已知属 性A后带来的信息增益Gain(S,A),
    为样本集S的熵减去按属性A划分S后的样本子集的熵:

按属性A划分S后的熵 的定义:

假定属性A有k个不同的取值,从而
将S划分为k个样本子集{S1,S2,…,Sk}

则 按属性A划分S后的信息熵为:

在这里插入图片描述

  • 其中 |Si| (i=1,2,…k)为样本子集 Si 中包含的样本数,|S|为样本集S中包含
    的样本数。
  • 信息增益越大&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

adingable

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值