数据挖掘聚类算法概述(有待完善)

1:聚类概念

聚类是一个把数据对象划分为多个簇或者多个组的过程,使得一个簇内的对象具有很高的相似性,但与其他簇内的对象不相似。聚类算法属于无监督学习

2:聚类分析概念

 聚类分析是一个把数据对象划分为子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似,由聚类分析产生簇的集合叫做聚类。至关重要的区别是,聚类可以自动地发现这些分组是聚类分析的突出优点。

3:应用场景

1:客户分类

2:文本分类

3:基因识别

4:空间数据处理

5:卫星图片识别

6:数据分析,统计学,机器学习,空间数据库技术,生物学和市场学

4:聚类的依据--距离

聚类分析是研究对样本或变量的聚类,在进行聚类的时候,方法很多,而这些方法的选择往往与变量的类型是有关的,由于数据的来源以及测量方法的不同,变量大致可以分为两类:

1)定量变量:可就是通常所说的连续变量

2)定性变量:这些量并非真有数量上的变化,而只有性质上的差异,这些变量可以分为有序变量和名义变量

对于连续型变量,有一些典型的距离定义:

绝对值距离 绝对值距离是在一维空间下进行的距离计算
欧式距离 欧式距离是在二维空间下进行的距离计算
闵可夫斯基距离 闵可夫斯基距离是在n维空间下进行的距离计算
切比雪夫距离 是闵可夫斯基距离在n取无穷大时的距离
Lance距离 减弱极端值的影响力

 公式自己百度吧...

5:基本聚类方法概述

聚类方法主要划分为:划分聚类,层次聚类,基于密度聚类,基于网格聚类,基于概率模型聚类

<
方法 一般特点
划分方法

1:发现球形互斥的簇

2:基于距离

3:可以用均值或中心点等代表簇中心

4:对中小规模数据集有效

层次方法

1:聚类是一个层次分解(即多层)

2:不能纠正错误的合并或分析

3:可以集成其他技术,如微聚类或考虑对象"连接"

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值