数据挖掘学习笔记--聚类分析（一）

最新推荐文章于 2023-01-17 20:21:21 发布

girls_can

最新推荐文章于 2023-01-17 20:21:21 发布

阅读量913

点赞数 1

分类专栏：数据挖掘机器学习

本文链接：https://blog.csdn.net/girls_/article/details/80838823

版权

本文介绍了数据挖掘中的聚类分析，包括基于划分的k-means和二分K均值，基于层次的凝聚和分裂聚类，以及基于密度的DBSCAN算法。详细探讨了各类方法的优缺点和工作原理，提供了深入学习的资源。

摘要由CSDN通过智能技术生成

聚类（clustering）是将物理或抽象对象的集合分成相似的对象类或簇的过程，是无监督学习【unsupervised learning】。

--基于划分

k-means 基本K均值方法

方法：

1.选择K个点作为初始质心

2.repeat

3. 将每个点指派到最近的质心，形成K个簇

4. 重新计算每个簇的质心

5.until 质心不再发生变化

优点：

聚类快

缺点：

a.常终止于局部最优

b.只适用于数值属性聚类

c.对噪声和异常值敏感

d.选择不同的初始值，可能产生不同的聚类结果

f.不适合发现非凸面的簇

二分K均值

方法：

1.初始化簇表，使之包含由所有的点组成的簇

2.repeat

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

girls_can

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

聚类分析学习笔记(一)

weq27的博客

04-04

1176

聚类分析学习笔记(一) 此笔记参考了数据挖掘导论、周志华的机器学习以及机器学习实战三本书 1.概要聚类分析的作用是根据在数据中发现的描述对象及其关系的信息，将数据分组（簇）。组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性越大，组间的差别越大，则聚类就越好。因为聚类分析是无标记学习，所以是一种非监督学习。聚类分好几种类型，本文中主要涉及基于原型的聚类，基于

聚类分析----学习笔记

张某人ER的技术博客 ==学习&&分享==

12-24

1271

聚类分析----学习笔记

参与评论您还未登录，请先登录后发表或查看评论

【数据挖掘笔记】聚类分析

越努力，越幸运

11-16

1700

零碎知识很多数据分析技术，如回归和PCA，都具有O(m2)或更高的时间或空间复杂度（m为对象个数）不同类型的聚类：层次（嵌套）/划分（非嵌套）聚类，互斥/重叠/模糊聚类，完全/部分聚类。层次聚类：允许簇有子簇划分聚类：得到不重叠子簇互斥聚类：各个簇互斥重叠聚类：如既是学生又是员工，同属于多个簇模糊聚类：每个对象用0和1之间的隶属权值属于每个簇【即簇被视为模糊集——模糊集中，每个对象以0和1之间的权值属于任一集合】完全聚类：每个对象指派到一个簇部分聚

数据挖掘笔记-聚类-DBSCAN-文档聚类

PURSUE ONE PIECE

08-21

2151

本篇主要是根据DBSCAN算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理，这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离，后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想，后面发现将数据降维后，结果还是比较理想的。代码托管:https://github.com/fighting-one-piece/repository-datamining.git。DBSCAN算法原理可以参考。java实现代码如下。

Python数据分析与挖掘实战第五章笔记之聚类分析

qq_41775711的博客

05-29

1379

#聚类分析： # 聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。可以建立在无类标记的数据上，是一种非监督的学习算法。划分原则是组内距离最小化，组间距离最大化。 # 常用的聚类方法： # 1、划分方法：K-Means（K均值），K-Medoids（K-中心点），Clarans算法 # 2、层次分析方法：BIRCH算法（平衡迭代规约和聚类），CURE算法（代表点聚类），C...

机器学习与数据挖掘学习笔记（3）聚类

小唐要努力的博客

10-30

1051

一、聚类的定义聚类就是将大量未知标注的数据集按照数据本身的特点将数据集划分为多个类别，使得类内的样本尽可能地相似，类间地样本尽可能地不同。之前我们学习过的分类和回归问题都是有监督问题，给的训练集都是有标记的样本；而聚类问题则是无监督问题，训练集的样本都是无标记的。 ...

数据挖掘读书笔记--第九章：聚类分析：基本概念和方法

SanFancsgo的博客

05-25

3939

散记知识点 ——“聚类：经典的无监督学习方法” 1.基本概念和方法 (1) 聚类的基本概念聚类是一个把数据对象划分成多个组或簇的过程，使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似。 (2) 聚类的基本方法基于距离的划分方法给定一个nnn个对象的集合，划分方法构建数据的kkk个划分。大部分的划分方法是基于距离的，首先给定要构建的分区数kkk构建一个初始划分。通...

机器学习笔记-聚类分析之K-means算法案例及其Python实现

热门推荐

lilu916的博客

06-10

7万+

引言： 数据挖掘的本质是“计算机根据已有的数据做出决策”，其对社会的价值不必多言，相关的应用已经有很多，包括垃圾邮件拦截、客户价值分析等。尽管数据挖掘实现过程的细节千差万别，但是从思路来说，主要包括两个方面：1、创建数据集；2、建模调整算法。算法是数据挖掘最核心的部分，作为一名学习新人，在参考《数据挖掘导论》、《Python数据分析与挖掘实战》、《Python数据挖掘入门与实战

数据挖掘学习笔记（一）

01-20

数据挖掘利用各种算法，如分类、聚类、关联规则学习、回归分析等，来发现知识和模式，这些知识可能对决策制定有着重大影响。在现代社会，数据源多样化且增长迅速，涵盖了商业、科学、社会和个人生活的各个层面。数据...

聚类分析操作步骤

qq_41301428的博客

07-23

2231

1.聚类 2、聚类结果

聚类的方法、原理以及一般过程

凝眸伏笔的博客

08-27

3万+

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。聚类和分类的区别聚类(Clustering)：是指把相似的数据划分到一起，具体划分的时候并不关心这一类的标签，目标就是把相似的数据聚合到一起，聚类是一种无监督学习(Unsupervised Learning)方法。分类(Classification)...

Oracle 聚簇（收集）

iushnauh的专栏

05-11

165

1. 什么是聚簇聚簇是根据码值找到数据的物理存储位置，从而达到快速检索数据的目的。Oracle聚簇索引的顺序就是数据的物理存储顺序，叶节点就是数据节点。非聚簇索引的顺序与数据物理排列顺序无关，叶节点仍然是索引节点，只不过有一个指针指向对应的数据块。一个表最多只能有一个聚簇索引。 2. 使用 Oracle聚簇索引聚簇是一种存储表的方法，这些表密切相关并经常一起连接进磁盘的同一区域。...

Spark-聚类分析-出租车案例

BigData_Mining的博客

07-20

4092

通过分析出租车数据，然后使用KMeans对经纬度进行聚类，然后按照（类别，时间）进行分类，再统计每个类别每个时段的次数。数据地址链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz 数据格式以及意义： 111,30.655325,104.072573,173749 111,30.655346,104.072363,173...

层次聚类簇数_数据挖掘入门笔记——Chameleon聚类（徐徐图之）

weixin_39746869的博客

11-06

433

写在前面：健忘星人自学笔记，仅供参考。简单易懂的参考资料[图文]聚类算法 - 层次方法 - 百度文库wenku.baidu.com好久不见~~为了尽快开始新的内容，最近先把草稿箱里的算法补齐因为时间略微有一点点点点久远（健忘了），引用的部分较多，请见谅。今天我们将继续学习层次聚类的优化算法——Chameleon 聚类（1）BIRCH：CF-Tree+二度聚类（2）CURE：每个簇有一...

K-Means、层次聚类算法讲解及对iris数据集聚类实战（附源码）

最新发布

showswoller的博客

01-17

2825

K-Means、层次聚类算法讲解及对iris数据集聚类实战（附源码）

【多元统计分析】聚类分析——spss上机实验

suansuannainaizi的博客

01-02

1万+

聚类分析 #例题来自于中国人民大学《多元统计分析》第五版何晓群著题目为研究城镇居民的消费结构，对《中国统计年鉴》中2016年分地区城镇居民人均消费支出表进行指标聚类，该表共有8个指标，分别是食品烟酒支出、衣着支出、居住支出、生活用品及服务支出、交通通信支出、教育文化娱乐支出、医疗保健支出、其他用品及服务支出。将指标中相关性较强的指标进行归并，可有效得到地区消费水平的分类结果。实验目的对社会经济案例进行研究 SPSS上机操作步骤一、相关性分析对数据进行距离的计算，输出近似值矩阵。当两个变量之间的

聚类分析

weixin_47318522的博客

04-28

2851

通俗的讲，聚类分析它是根据研究对象的特征按照一定的标准，对研究对象来进行分类的一种分析方法，它使分成后的每一种类的数据对象具有较高的相似度，而不同类的对象有比较大的差异性，聚类分析可以在没有明显分类的情况下，对所给数据进行分类。纯概念可能不是很好理解，下面用一个python的例子做一个比较形象的展示， Python实现Kmeans聚类代码 import numpy as np \支持大量的维度数组与矩阵运算,支持大量的维度数组与矩阵运算 import matplotlib.pyplot as plt \M

数据挖掘第八章——聚类分析

weixin_45876739的博客

12-27

3087

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分

数据挖掘——聚类分析

benguniang的博客

12-03

1744

1.K-Means聚类（划分聚类）算法步骤： (1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。 (2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。 (3) 计算每一类中中心点作为新的中心点。 (4) 重复以上步骤，直到每一类...

传统聚类算法学习笔记：K-Means原型聚类机制及基本原理

传统聚类算法学习笔记整理 ...随着机器学习和数据挖掘的发展，聚类算法的应用也越来越广泛，对于分析数据、发现隐藏模式和提取有用信息具有重要意义。因此，熟练掌握传统聚类算法是提高数据分析能力的重要一步。