数据挖掘对聚类分析的要求

1. 可扩展性(Scalability)
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
2. 处理不同数据类型的能力
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
3. 发现任意形状的能力
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
4. 用于决定输入参数的领域知识最小化
对于高维数据,参数很难决定,聚类的质量也很难控制
5. 处理噪声数据的能力
对空缺值、孤立点、数据噪声不敏感
6. 对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
7. 高维度
高维度的数据往往比较稀松,而且高度倾斜
8. 基于约束的聚类
找到既满足约束条件,又具有良好聚类特性的数据分组
9. 可解释性和可用性
聚类要和特定的语义解释和应用相联系

相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值