数据挖掘笔记（3）——聚类、离群点分析

最新推荐文章于 2022-03-30 22:36:54 发布

高新普惠_搬砖手

最新推荐文章于 2022-03-30 22:36:54 发布

阅读量1.3w

点赞数 1

分类专栏： JAVA技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dananhai381/article/details/10358987

版权

本文详细介绍了数据挖掘中的聚类概念，包括基本定义、特征、评价标准以及不同数据类型的处理方法。此外，还探讨了聚类的主要方法，如k均值、层次方法和密度方法。同时，文章讨论了离群点分析，定义了离群点并提供了发现离群点的不同策略。

摘要由CSDN通过智能技术生成

聚类

基本概念

聚类：

将对象分成相似的类，聚类中一个样本可属于多个类别

特征：

不考虑数据的类标号，而是通过聚类产生新类标号

评价：

最大化类内相似性（similarity），最小化类间相似性。相似性需要定义，作为聚类的标准

数据挖掘的要求

可解释性

发现任意形状的聚类

处理不同类型属性的能力

可伸缩性

对于决定输入参数的领域知识需求最小

什么不是聚类：

分类：有类标

聚类最优分类组是未知的

聚类结果是动态的

可能没有关于聚类的先验知识

简单分组：有定义（根据姓名进行分组）

检索结果：有确定结果

图分割

数据结构

矩阵（表）：列标示特征、行标示记录，待处理的数据

相异度矩阵（对称矩阵）： d(i,j)：标示对象i和j的相异度，多数聚类算法都是对相异度矩阵运行

区间标度变量

粗略的线性、连续变量，如高度、气温，选用的单位会影响聚类结果，度量单位（数值比较大，特征就会影响）

解决：度量标准化（转换为无单位的值）：1. 计算均值绝对偏差（反应数据离散度） 2.

最低0.47元/天解锁文章

高新普惠_搬砖手

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。