基于
Python
的聚类分析及其应用
庄怡雯
,
吴金桥
,
黄润才
,
曹奇英
【摘
要】
摘要
:
在研究聚类基本原理及相应算法的基础上
,
着重分析了层次聚类
算法和
k-means
分割聚类算法
,
并比较了这两种算法的特点
.
结合
Python
语言
的特点
,
编写程序实现了
k-means
聚类算法在博客数据集上的聚类应用
,
给出了
详细的聚类实验结果分析
.
【期刊名称】
上海工程技术大学学报
【年
(
卷
),
期】
2010(024)001
【总页数】
4
【关键词】
关键词
:
聚类分析
;Python
语言
;
层次聚类
;k-means
聚类
聚类作为数据挖掘中的一项重要技术
,
常被用于大数据量的信息挖掘
,
如零售商可
以利用聚类算法跟踪消费者的购买行为
,
并据此策划相应的市场策略
.
聚类属于无
监督学习方法
,
无监督学习算法的特点
,
即它不是利用带有正确答案的样本数据进
行训练
,
而是在一组数据中找到某种结构
,
数据本身并不是要找的答案
.
聚类算法
的主要目的就是采集数据
,
然后从中找出不同的群组
.
1
聚类算法
聚类原理是将大量未知的数据集按数据的内在相似性划分为多个类别
,
使类别内
的数据相似度较大
,
而类别间的数据相似度较小
.
通常
,
聚类算法所需的数据预处
理是定义一组公共的数值型属性
,
然后
,
利用这些属性对数据项进行比较
.
1.1
聚类的基本要素
1.1.1
聚类有效性函数
1)
在聚类算法的不同阶段会得到不同的类别划分结果
,
可以通过聚类有效性函数