聚类分析（文末送书）_划分聚类方法对数据集进行聚类时包含三个要点

前端老侯

于 2024-05-13 00:39:42 发布

阅读量901

点赞数 29

分类专栏：程序员文章标签：运维学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60147147/article/details/138773965

版权

程序员专栏收录该内容

152 篇文章 1 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

目录

聚类分析是什么

一、定义和数据类型

聚类分析方法的性能指标

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析方法分类

二、K-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

K-Means算法流程:

K-means聚类算法的特点

三、k-medoids算法

K-medoids算法特点

四、送书活动

五、抽奖规则

聚类分析是什么

聚类分析是一种寻找数据之间内在结构的技术，将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类把全体数据实例组织成一些相似组，而这些相似组被称作簇。处于相同簇中的数据实例彼此相同，处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习，与监督学习不同的是，在簇中那些表示数据类别的分类或者分组信息是没有的。

一、定义和数据类型

聚类应用

市场营销: 帮助营销人员帮他们发现顾客中独特的群组，然后利用他们的知识发展目标营销项目
土地利用: 在土地观测数据库中发现相似的区域
保险: 识别平均索赔额度较高的机动车辆保险客户群组
城市规划: 通过房屋的类型、价值、地理位置识别相近的住房
地震研究: 沿着大陆断层聚类地震的震中

聚类分析方法的性能指标

可扩展性
自适应性
鲁棒性
可解释性

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析方法分类

基于划分、基于分层、基于密度、基于网络、基于模型

二、K-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

选定某种距离作为数据样本间的相似性度量
选择评价聚类性能的准则函数
选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值

标准测试函数：

均值：

K-Means算法流程:

输入:包含n个对象的数据集聚类个数k，最小误差e
输出:满足方差最小标准的k个聚类
①从n个数据对象中随机选出k个对象作为初始聚类的中心
②将每个类簇中的平均值作为度量基准，重新分配数据库中的
数据对象
③计算每个类簇的平均值，更新平均值
④循环(2)(3)，直到每个类簇不在发生变化或者平均误差小于e

K-means聚类算法的特点

优点
简单、快速
算法尝试找出使平方误差函数值最小的k个划分据集
对处理大数据集，该算法是相对可伸缩的和高效率的

缺点

不适合于发现非凸面形状的簇，或者大小差别很大的簇

要求用户必须事先给出要生成的簇的数目K

对于“噪声”和孤立点数据敏感

最全的Linux教程，Linux从入门到精通

======================

linux从入门到精通(第2版)
Linux系统移植
Linux驱动开发入门与实战
LINUX 系统移植第2版
Linux开源网络全栈详解从DPDK到OpenFlow

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

第一份《Linux从入门到精通》466页

====================

内容简介

====

本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷，并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本，循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘，内容为本书配套多媒体教学视频。另外,本书还为读者提供了大量的Linux学习资料和Ubuntu安装镜像文件，供读者免费下载。

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

本书适合广大Linux初中级用户、开源软件爱好者和大专院校的学生阅读，同时也非常适合准备从事Linux平台开发的各类人员。

需要《Linux入门到精通》、《linux系统移植》、《Linux驱动开发入门实战》、《Linux开源网络全栈》电子书籍及教程的工程师朋友们劳烦您转发+评论

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

29
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
聚类分析（文末送书）_划分聚类方法对数据集进行聚类时包含三个要点

本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第﹖版以最新的Ubuntu 12.04为版本，循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。聚类分析是一种寻找数据之间内在结构的技术，将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类技术通常又被称为无监督学习，与监督学习不同的是，在簇中那些表示数据类别的分类或者分组信息是没有的。②将每个类簇中的平均值作为度量基准，重新分配数据库中的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。