数据挖掘笔记：聚类算法

最新推荐文章于 2024-09-06 10:38:06 发布

a44267113

最新推荐文章于 2024-09-06 10:38:06 发布

阅读量251

点赞数

分类专栏：数据挖掘学习笔记文章标签：聚类算法数据挖掘

本文链接：https://blog.csdn.net/a44267113/article/details/128184972

版权

数据挖掘学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

啥是聚类？

在讲聚类之前，先讲讲无监督学习；

无监督学习：在训练的时候只需要特征矩阵X，不需要标签；
聚类算法/无监督分类作用：将数据划分成有意义或有用的组（或簇）；

聚类和分类的比较如下图所示：

KMeans

聚类作为机器学习的一种常用方式，其中最为著名的就是KMeans算法；

核心任务：根据我们设定好的K，找出K个最优的质心，并将离这些质心最近的数据分别分配到这些质心代表的簇中去；
工作流程：如下图所示：

将其工作过程图像化后如下图所示：规定将数据分为4簇（K=4），其中白色X代表质心的位置

右边的那个图可以看出：第六次迭代之后，基本上质心的位置就不再改变了，生成的簇也变得稳定。此时聚类就完成了，接下来就可以对这四类数据进行不同的处理；

但是由于其是无监督学习，没有特别的指标来定义分类结果好坏。所以要结合问题的专业领域知识来综合分析聚类结果，从而得知分类效果的可信度；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a44267113

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘笔记：聚类算法

聚类算法的学习笔记，自己之前看过sklearn的教程，用那个来写了
复制链接

扫一扫

专栏目录

机器学习（一）——聚类

LongXinKou的博客

03-09

1953

文章目录1. 聚类任务2. 性能度量3. 距离计算4. 原型聚类4.1 k-means4.2 LVQ4.3 高斯混合聚类4.4 密度聚类4.5 层次聚类参考资料《机器学习》——周志华 1. 聚类任务（1）目的聚类试图将样本划分为若干通常不相交的子集。（2）符号描述假定样本集D={x1,x2,⋯ ,xm}D=\{x_1,x_2,\cdots,x_m\}D={x1,x2,⋯,xm}包含m个样本。每个样本xi={xi1,xi,2,⋯ ,xi,n}x_i=\{x_{i1},x_{i,2},\c

数据挖掘-聚类算法

catchingSun的专栏

03-13

829

3/15详细讲述聚类算法 小萌又回来啦

参与评论您还未登录，请先登录后发表或查看评论

聚类算法详解

m0_47533197的博客

03-27

365

DBSCAN算法的描述如下。输入：数据集，邻域半径 Eps，邻域中数据对象数目阈值 MinPts;输出：密度联通簇。处理流程如下。①从数据集中任意选取一个数据对象点 p；②如果对于参数 Eps 和 MinPts，所选取的数据对象点 p 为核心点，则找出所有从 p 密度可达的数据对象点，形成一个簇；③如果选取的数据对象点 p 是边缘点，选取另一个数据对象点；④重复②、③步，直到所有点被处理。DBSCAN 算法的计算复杂的度为 O(n²)，n 为数据对象的数目。

【数据挖掘笔记】聚类分析

越努力，越幸运

11-16

1663

零碎知识很多数据分析技术，如回归和PCA，都具有O(m2)或更高的时间或空间复杂度（m为对象个数）不同类型的聚类：层次（嵌套）/划分（非嵌套）聚类，互斥/重叠/模糊聚类，完全/部分聚类。层次聚类：允许簇有子簇划分聚类：得到不重叠子簇互斥聚类：各个簇互斥重叠聚类：如既是学生又是员工，同属于多个簇模糊聚类：每个对象用0和1之间的隶属权值属于每个簇【即簇被视为模糊集——模糊集中，每个对象以0和1之间的权值属于任一集合】完全聚类：每个对象指派到一个簇部分聚

数据挖掘聚类算法

bgfuufb的博客

11-11

1703

数据挖掘聚类算法

数据挖掘——传统聚类算法基础知识笔记

qq_37421110的博客

04-17

1370

聚类分析是数据挖掘应用的技术之一，可以看作一种数据分析方法，也可以作为数据挖掘技术的预处理。聚类算法属于无监督学习的范畴，不需要人为事先确定好聚类的类别，所以常常被用来对未知类别的数据（如电力日负荷曲线）进行划分。聚类算法通过一定的计算，把数据集划分为不同的簇，旨在使同一簇内的数据相似性最高，簇与簇之间差距最大。 1.聚类算法的分类常见的聚类算法可分为以下几类： (1) 划分法：即通过不断地迭代...

数据挖掘笔记:聚类分析

陈陈的专栏

05-16

1881

什么是聚类分析聚类（簇）：数据对象的集合在同一个聚类（簇）中的对象彼此相似不同簇中的对象则相异聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习：没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法（如：特征和分类）的预处理步骤 ?是好的聚类分析个好的聚类分析方法会产生高质量的聚类高类内相似度,低类

聚类算法学习笔记.docx

10-29

3. 基于层次的聚类算法：基于层次的聚类算法通常分为两种类型：自底向上（Agglomerative）和自顶向下（Divisive）。这些算法构建一个树状结构，称为谱系图或 dendrogram，来表示数据对象之间的关系。 - 自底向上...

聚类算法学习笔记.pdf

10-29

【聚类算法】是数据挖掘领域中的重要技术之一，主要用于无监督学习，即将未标记的数据集分成多个组或“簇”，使得同簇内的数据对象彼此相似，而不同簇之间的对象则差异较大。聚类分析的基本目标是最大化类内相似度，...

聚类算法学习笔记 (4).docx

10-29

【聚类算法学习笔记】 聚类算法是一种无监督学习方法，它的主要目标是根据数据对象的相似性将数据集划分为多个子集，即“簇”。每个簇内部的数据对象具有高度相似性，而不同簇之间的对象则差异较大。在聚类分析中，...

neural-admixture：基于AI的快速基因组聚类

zd200572的博客

09-01

1199

Neural ADMIXTURE 是一种基于 ADMIXTURE 的无监督全局祖先推理技术。通过使用神经网络，Neural ADMIXTURE 提供高质量的祖先分配，运行时间比 ADMIX 快得多。该软件可以通过 CLI 调用，并且具有与 ADMIXTURE 类似的界面（例如，输出格式完全可互换）。虽然该软件在 CPU 和 GPU 中运行，但我们建议使用 GPU（如果可用）以利用基于神经网络的实现。

算法练习题13——除自身以外数组的乘积（动态规划）

hello77的blogggg 祝你得偿所愿

09-04

639

给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。

【大数据分析与挖掘算法】matlab实现——Apriori关联规则算法

Robbi_的博客

09-04

542

四、实验结果。

【算法】C++贪心算法解题（单调递增数字、坏了的计算器、合并区间）

卜及中的博客

09-03

663

【算法】贪心算法解析：基本概念、策略证明与代码例题演示。

LeetCode LCR088.使用最小花费爬楼梯

m0_63816268的博客

09-03

1068

动态规划

树状数组记录

最新发布

volcan的博客

09-06

508

树状数组（Fenwick Tree）是一种用于维护数组前缀和的数据结构，支持高效的单点更新和区间查询操作。它的查询和更新时间复杂度为Ologn，适用于需要频繁更新和查询的场景。

第四讲：拟合算法

PGeorge6的博客

09-03

1329

与插值问题不同，在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数(曲线)使得该曲线在某种准则下与所有的数据点最为接近，即曲线拟合的最好(最小化损失函数)。插值算法中，得到的多项式f(x)要经过所有样本点。但是如果样本点太多，那么这个多项式次数过高，会造成龙格现象。尽管我们可以选择分段的方法避免这种现象，但是更多时候我们更倾向于得到-个确定的曲线，尽管这条曲线不能经过每一个样本点，但只要保证误差足够小即可，这就是拟合的思想。(拟合的结果是得到一个确定的曲线)

力扣刷题--1534. 统计好三元组【简单】

m0_75266675的博客

09-04

312

力扣刷题--1534. 统计好三元组【简单】

P7492 [传智杯 #3 决赛] 序列

summ1ts的博客

09-03

451

的数组，表示区间内所有数的二进制表示下某一位是否为1，但这太难写，最后无奈去看官方题解，发现只要维护区间所有数的按位与和And，如果(And&k)==k的话那就不用修改了。那样的话这个题就很简单了，维护最大子段和可以见。一道类似势能线段树的题，区间按位或上k，不满足区间可合并的性质，只能暴力的单点修改。，如果我们能找到一个方法，能够判定区间里的数，或上k后是否有改变，就可以避免。至于时间复杂度用类似势能分析的方法分析一波就行了，时间复杂度。我一开始想的是线段树里维护一个。但是考虑按位或的性质，

传统聚类算法学习笔记：K-Means原型聚类机制及基本原理

传统聚类算法学习笔记整理 ...随着机器学习和数据挖掘的发展，聚类算法的应用也越来越广泛，对于分析数据、发现隐藏模式和提取有用信息具有重要意义。因此，熟练掌握传统聚类算法是提高数据分析能力的重要一步。