K-means分类器讨论
1.1 题目的主要研究内容
(1)组的主要任务描述
- k均值算法流程,原理
- k的选择方法
- kmeans算法编写
- 鸢尾花实现及结果分析
- 手动推演
- k均值的改进
(2)自己工作的主要描述
工作内容主要包括设计算法实现对鸢尾花数据集的分类,并对分类结果做分析,找出最适合的评价标准。
1.2 题目研究的工作基础或实验条件
(1)硬件环境
笔记本电脑
(2)软件环境
pycharm,python
1.3 设计思想
加载sklearn中的iris数据集使用不同维度的数据,调用sklearn中的KMeans()函数实现鸢尾花分类,然后设置不同的k值,做多次分类,将结果用matplotlib画出来比对结果,再计算inertia指标、轮廓系数、调整兰德系数。
1.4 主要程序代码(要求必须有注释)
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn import datasets
from sklearn import metrics
from sklearn.metrics import silhouette_score, silhouette_samples
# inertia指标
inertia_scores = []
# 轮廓系数silhouette_score
sil_scores = []
# ari兰德系数
ari_scores = []
# 花萼长度、花萼宽度、花瓣长