python聚类分析鸢尾花_K-Means 聚类算法实现鸢尾花数据的聚类

该博客介绍了使用Python的KMeans聚类算法对鸢尾花数据集进行聚类分析的过程,包括数据读取、预处理、模型训练、结果输出和聚类中心展示。通过对样本距离的计算,将数据分为4个类别,展示了聚类标签、聚类中心和各类别的样本数量。
摘要由CSDN通过智能技术生成

#!/usr/bin/env Python3

# -*- coding: utf-8 -*-

# @Software: PyCharm

# @virtualenv:workon

# @contact: Kmeans聚类算法,数据集是Iris(鸢尾花的数据集),分类数k是3,数据维数是4。

# @Desc:Code descripton

__author__ = '未昔/AngelFate'

__date__ = '2019/8/17 21:00'

import pandas as pd

import numpy as np

import matplotlib.pylab as plt

"""

K-means聚类算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的K个类,使得K个类达到类内数据距离之和最小而类间距离之和最大。它是无监督学习算法,采用距离作为相似性的度量指标,即认为两个对象距离越近,其相似性就越大。

1、数据类型与相似性度量

(1)连续属性和离散属性数据

对于连续属性,要依次对每个属性的属性值进行零-均值化处理;对于离散属性,要依次对每个属性的属性值进行数值化处理。然后通过计算距离来度量相似性,K-means聚类算法中一般需要计算样本间的距离,样本和簇的距离,簇和簇的距离。其中,样本间的距离通常用欧式距离(欧几里得距离)、曼哈顿距离和闵可夫斯基距离,样本和簇的距离可以用样本到簇中心的距离代替,簇和簇距离可以用簇中心到簇中心的距离代

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值