八 聚类分析:基本概念和算法1

本文介绍了聚类分析的基本概念,包括非监督分类、不同的聚类类型以及不同的簇类型。重点讲解了k均值算法,阐述了其基本原理、质心定义、目标函数以及附加问题,如处理空簇和离群点。还讨论了k均值的适用场景和优缺点,并将其视为优化问题进行探讨。
摘要由CSDN通过智能技术生成

8.1 概述

8.1.1 什么是聚类分析

聚类分析是根据在数据中发现的描述对象及其关系,将数据对象分组。
聚类分析目标是组内的对象互相之间是相似的,而不同组中的对象是不同的。
聚类与分类:聚类分析可以理解为非监督分类

8.1.2 不同的聚类类型

层次的与划分的:簇的集合是嵌套还是非嵌套
互斥的、重叠的与模糊的:模糊聚类中每一个对象相对于每个簇都有一个隶属权值
完全的与部分的:是否将每一个对象都必须归为某一簇

8.1.3 不同的簇类型

明显分离的
基于原型的:球形(k均值)
基于图的
基于密度:簇就是对象的稠密区,被低密度的区域环绕(凝聚的层次聚类,DBSCAN)
共同性质的

8.2 k均值

K均值用质心定义原型,质心是一组值的均值
K中心点使用中心点定义原型,中心点是一组点中最具代表性的点

8.2.1 基本K均值算法

在这里插入图片描述
1.指派点到最近的质心
邻近度来量化所考虑数据的最近概念
2.质心和目标函数
聚类目标通常用一个目标函数表示,该函数依赖于点之间,或点到簇的质心的邻近性
欧几里得空间中的数据:
误差平方和SS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值