DM——数据处理基础：距离和相似性

最新推荐文章于 2023-05-28 21:04:02 发布

adingable

最新推荐文章于 2023-05-28 21:04:02 发布

阅读量630

点赞数

分类专栏：学习笔记：数据挖掘原理与实践文章标签：数据挖掘

本文链接：https://blog.csdn.net/m0_46156900/article/details/118244424

版权

文章目录简单的概念：熵(entropy,也称信息熵)信息增益按属性A划分S后的熵的定义:简单数据对象之间的相似度和相异度(线性)相关系数Correlation coefficientCosine 相似度Pearson相关系数常用距离函数一.间隔数值属性1.欧式(Euclidean)距离2.曼哈顿(Manhattan)距离二.二值属性Jaccard系数：附1.信息熵例题2.信息增益例题3.计算Jaccard系数简单的概念：相似度(Similarity)两个对象相似程度的数值度量，

摘要由CSDN通过智能技术生成

简单的概念：


相似度(Similarity)	两个对象相似程度的数值度量，两对象越相似，它们的相似度就越高
相异度(Dissimilarity)	…和上面概念相反
互信息(Mutual Information)	衡量随机变量之间相互依赖程度的度量。比如云的颜色和是否下雨的互依赖程度。
信息熵	度量一个属性的信息量
信息增益	信息增益是已知某条件前数据集的熵，和已知某条件后数据集的熵

的差值

熵(entropy,也称信息熵)

假定S为训练集，S的目标属性C具有m个可能的类标号值，
C={C1,C2,…,Cm}
假定训练集S中，Ci在所有样本中出现的概率为 pi (i=1,2,3,…,m)，则该训练集S所包含的信息熵定义为：

熵越小表示样本对目标属性的分布越纯，
反之熵越大表示样本对目标属性分布越混乱。

所以，通过上面公式可以看出来，当P_i = 1的时候，信息熵=0，最小。
也就意味着，所有样本的目标属性取值相同。

信息增益

"是已知某条件前数据集的熵，和已知某条件后数据集的熵的差值"

假设原始数据集为

已知属性A的意思为按属性A划分S；
则已知属性A后带来的信息增益Gain(S,A)，
为样本集S的熵减去按属性A划分S后的样本子集的熵：

按属性A划分S后的熵的定义:

假定属性A有k个不同的取值，从而
将S划分为k个样本子集{S₁,S₂,…,S_k}

则按属性A划分S后的信息熵为:

其中 |S_i| (i=1,2,…k)为样本子集 S_i 中包含的样本数，|S|为样本集S中包含
的样本数。

信

最低0.47元/天解锁文章

adingable

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
DM——数据处理基础：距离和相似性

文章目录简单的概念：熵(entropy,也称信息熵)信息增益按属性A划分S后的熵的定义:简单数据对象之间的相似度和相异度(线性)相关系数Correlation coefficientCosine 相似度Pearson相关系数常用距离函数一.间隔数值属性1.欧式(Euclidean)距离2.曼哈顿(Manhattan)距离二.二值属性Jaccard系数：附1.信息熵例题2.信息增益例题3.计算Jaccard系数简单的概念：相似度(Similarity)两个对象相似程度的数值度量，
复制链接

扫一扫