聚类分析笔记

1. 什么是聚类
定义:
将无力或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。
由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

与分类的区别,分类是有指导学习——类数目已知
                       聚类是无指导学习——类数目未知
典型应用:
商务上,分析不同的客户群,并用购买模式来刻画不同的客户群的特征。
在生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。
在游戏中,可以对玩家分类,对游戏分类,对游戏角色分类,获得一些信息。
活跃的研究主题:
数据挖掘对象类的典型要求:
聚类方法的可伸缩性:高伸缩性(处理数据量)
处理不同类型属性的能力:
发现任意形状的聚类:
用于决定输入参数的领域知识最小化:输入参数对聚类分析的影响很大
处理噪声数据的能力:
对于输入记录的顺序不敏感:
高维性:
基于约束的聚类:
可解释性和可用性:
2. 聚类分析中的数据类型
(1)数据矩阵
用p个变量来表现n个对象,nXp矩阵。
(2)相异度矩阵
存储n个对象两两之间的近似性,nXn矩阵
数据矩阵被称为二模矩阵,而相异度矩阵被称为单模矩阵。

区间标度变量
(1)计算平均的绝对偏差
sf = (|x1f - mf| + |x2f - mf| + … + |xnf - mf|)/ n
x1f, …, xnf 是f的n个度量值,mf是f的平均值,即mf = (x1f + x2f + … + xnf) / n
(2)计算标准化的度量值
zif = (xif - mf)/sf 

0
0
(请您对文章做出评价)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值