day2-机器学习-聚类

最新推荐文章于 2023-09-13 17:10:32 发布

mg1507

最新推荐文章于 2023-09-13 17:10:32 发布

阅读量369

点赞数

分类专栏：机器学习深度学习文章标签：机器学习聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mg1507/article/details/126162138

版权

机器学习同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1、聚类的任务是在无标记样本的条件下将数据分组，从而发现数据的天然结构。 ** 聚类是把一个数据对象的集合划分为簇（子集），使得簇内对象彼此相似，簇间对象不相似的过程。**

2、聚类常用方面：

发现数据的潜在结构
对数据进行自然分组
对数据进行压缩

3、聚类方法大体可以分为3个阶段：

经典算法：比如基于模型的算法，基于划分的算法，基于密度的算法，基于网格的算法，层次聚类算法；
高级算法，在经典算法的基础上，针对更为复杂的数据和任务开发的算法。比如：谱聚类，高维数据聚类，基于非负数矩阵分解的聚类，不确定数据聚类；
多源数据算法：它是针对多源相关数据开发的算法。比如：多角度聚类，多任务聚类，多任务多视角聚类，迁移聚类，多模聚类。

4、k均值算法是最大分离和最大内聚的最简单实现。

假设我们有一组数据集X，要分成K类，那相应的就会有K个质心；
a 首先选择K个质心，计算每个样本与分别与这K个质心的距离，将样本进行归类；
b 求出每个质心中所有样本的均值，得到K个均值；
c 计算属于第i个质心的样本与均值的距离平方，累加K个质心的距离和作为损失函数
d 新的质心是用属于该类的样本求和除以样本数得到新的质心，重复a，直到质心不再变化。
总结：从k均值算法的步骤看，可以发现，该算法第一次选择的质心至关重要，另外每次都算所有样本与质心的距离，来进行归类计算量太大，基本不适合稍微大点的数据集。

3、通俗来说，机器学习是一门讨论各式各样的适用于不同问题的函数形式，以及如何使用数据来有效的获取函数参数具体值的学科。

4、人工神经网络，我们将模拟生物神经网络的数学模型统称为人工神经网络。

5、模式识别，研究的是如何通过输入的特征对样本进行分类，而机器学习更加关注的是如何通过输入的样本来提取出合适的特征，进而实现分类的目标。

活动地址：CSDN21天学习挑战赛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
day2-机器学习-聚类

机器学习-聚类
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。