DM——数据处理基础:距离和相似性

文章目录简单的概念:熵(entropy,也称信息熵)信息增益按属性A划分S后的熵 的定义:简单数据对象之间的相似度和相异度(线性)相关系数Correlation coefficientCosine 相似度Pearson相关系数常用距离函数一.间隔数值属性1.欧式(Euclidean)距离2.曼哈顿(Manhattan)距离二.二值属性Jaccard系数:附1.信息熵例题2.信息增益例题3.计算Jaccard系数简单的概念:相似度(Similarity)两个对象相似程度的数值度量,
摘要由CSDN通过智能技术生成


简单的概念:

相似度(Similarity) 两个对象相似程度的数值度量,两对象越相似,它们的相似度就越高
相异度(Dissimilarity) …和上面概念相反
互信息(Mutual Information) 衡量随机变量之间相互依赖程度的度量。比如云的颜色和是否下雨的互依赖程度。
信息熵 度量一个属性的信息量
信息增益 信息增益是已知某条件前数据集的熵,和已知某条件后数据集的熵

的差值

熵(entropy,也称信息熵)

  • 假定S为训练集,S的目标属性C具有m个可能的类标号值,
    C={C1,C2,…,Cm}
  • 假定训练集S中,Ci在所有样本中出现的概率为 pi (i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:在这里插入图片描述

熵越小表示样本对目标属性的分布越纯,
反之熵越大表示样本对目标属性分布越混乱。


所以,通过上面公式可以看出来,当Pi = 1的时候,信息熵=0,最小。
也就意味着,所有样本的目标属性取值相同 。


信息增益

"是已知某条件前数据集的熵,和已知某条件后数据集的熵的差值"

假设原始数据集为

  • 已知属性A的意思为按属性A划分S;
  • 则已知属 性A后带来的信息增益Gain(S,A),
    为样本集S的熵减去按属性A划分S后的样本子集的熵:

按属性A划分S后的熵 的定义:

假定属性A有k个不同的取值,从而
将S划分为k个样本子集{S1,S2,…,Sk}

则 按属性A划分S后的信息熵为:

在这里插入图片描述

  • 其中 |Si| (i=1,2,…k)为样本子集 Si 中包含的样本数,|S|为样本集S中包含
    的样本数。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

adingable

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值