数据挖掘:聚类

聚类分析的基于内存的数据结构:

1二模矩阵:用P个变量来表示N个对象。(行表示属性,列表示每个对象对每个属性的特征)行和列都表示不同的实体

2异度矩阵:行和列表示相同的实体;(单模矩阵)存储n个对象两两之间的近似。

区间标度变量:重量、高度。一个粗略线性标度的连续度量。

度量单位将直接影响聚类分析的结构,需将单位标准化,将原来的之转化为无单位的值。(Z-SCORE)

EUCLIDEAN(欧几里得)距离;minkowski距离

manhattan距离

对称的二元变量:用简单匹配系数评估相异度d(i,j)=(b+c)/(a+b+c+d)

非。。。。。。:Jaccard系数(不关心都为0(d)的情况)。。。。。。:d(i,j)=(b+c)/(a+b+c)

标称变量:简单匹配:d(i,j)=(p-m)/p;将m个标称状态的每个状态创建一个新的二元变量,并用非对称的二元变量来编码标称变量。

序列型变量:将序列数一一对应到连续的数字数组上,将值映射到【0,1】(24.2.30)

 

转载于:https://www.cnblogs.com/nanshanyeyu/p/4464293.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值