人工智能03-聚类？无监督学习！

最新推荐文章于 2024-09-27 10:58:53 发布

想做PM的Janna

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量778

点赞数 13

分类专栏：人工智能文章标签：人工智能聚类学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_50475642/article/details/139102360

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

03-无监督学习

什么是无监督学习

定义：机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群（也就是说训练的数据集并没有固定标签，只需要找到数据的共同点）。
优点：
- 算法不受监督信息（偏见）的约束，可能考虑到新的信息（新的分类方式）
- 不需要标签数据，极大程度扩大数据样本（节省成本）
应用：聚类分析（Clustering）、关联规则、维度缩减（将关联的维度合并）

聚类分析

聚类分析又称为群分析，根据对象某些属性的相似度，将其自动化分为不同的类别。例如：

客户划分：价值用户、普通用户、负样本
基因聚类：研究基因的特性，先分类
新闻关联：检索

常用的聚类算法

KMeans聚类
- 过程：
  - 根据数据与中心点距离划分类别
  - 基于类别数据更新中心点
  - 重复过程直到收敛
- 特点：
  - 实现简单，收敛快
  - 需要指定类别数量
Meanshift(均值漂移聚类)
- 过程
  - 在中心点一定区域统计数据点密度分布
  - 更新中心
  - 重复流程到中心稳定
- 特点：
  - 自动发现类别数量，不需要人工选择
  - 需要选择区域半径
DBSCAN算法(基于密度的空间聚类算法)：
-过程：
- 基于区域点密度筛选有效数据
- 基于有效数据向周边扩张，直到没有新点加入
- 特点：
  - 过滤噪声数据
  - 不需要人为选择类别数量
  - 数据密度不同时影响结果

聚类算法实例

K均值聚类

各种量：
- 数据点与各簇中心点距离： $dist\left(x_i,u^t_j\right)$
- 根据距离归类： $x_i\in u^t_{nearest}$
- 中心更新： $u^{t+1}_j=\frac{1}{k}\sum_{x_i\in s_j}(x_i)$
- t时刻第 $j$ 个区域簇： $S_j$
- 包含在 $S_j$ 范围内点的个数： $k$
- 包含在 $S_j$ 范围内的点
流程：
- 选择聚类的个数 $k$
- 确定聚类中心
- 根据点到聚类中心聚类确定各个点所属类别
- 根据各个类别数据更新聚类中心
- 重复以上步骤直到收敛
优点：
- 原理简单，实现容易，收敛速度快
- 参数少，方便使用
缺点：
- 必须设置簇的数量
- 随机选择初始聚类中心，结果可能缺乏一致性
Kmeans vs KNN
- Kmeans为无监督学习
- K近邻分类为监督学习

K近邻分类模型(KNN)

给定一个训练数据集，对新的输入实例，在数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

最简单的机器学习算法之一
举例：
- K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，判定绿色的待分类点属于红色的三角形一类。
- K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，判定绿色的待分类点属于蓝色的正方形一类。

均值漂移聚类

一种基于密度梯度上升的聚类算法（沿着密度上升方向寻找聚类中心点）

各种量：
- 以 $u$ 为中心点，半径为 $h$ 的高维球区域： $S_h$
- 包括在 $S_h$ 范围内点的个数：k
- 包含在 $S_h$ 范围内的点： $x_i$
- $t$ 状态下求得的偏移均值： $M^t$
- $t$ 状态下的中心： $u^t$
- 均值漂移： $M(x)=\frac{1}{k}\sum_{x_i\in s_h}(u-x_i)$
- 中心更新： $u^{t+1}=M^t+u^t$
流程：
- 随机选择未分类点作为中心点
- 找出离中心点距离在带宽之内的点，记作集合S
- 计算从中心点到集合S中每个元素的偏移向量M
- 中心点以向量M移动
- 重复2-4直至收敛
- 重复1-5直到所有的点都被归类
- 分类：根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类

以上为B站BV1884y1k7cv的课程笔记，如有不足之处请指出，谢谢！

想做PM的Janna

关注

13
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

想做PM的Janna CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

143万+: 周排名

14万+: 总排名

5139: 访问

: 等级

205: 积分

110: 粉丝

126: 获赞

3: 评论

117: 收藏

私信

关注

热门文章

分类专栏

最新评论

项目管理03-软件项目管理
CSDN-Ada助手: 恭喜您发布了新的博客！深入探讨软件项目管理是非常有益的，对于读者来说也是一次很好的学习机会。希望您能继续坚持创作，分享更多有趣、有用的内容。或许下一步可以考虑写一些实际案例分析或者分享一些项目管理的实践经验，这样更能吸引读者的兴趣。期待您更多的精彩文章！
人工智能02-简单分类问题？逻辑回归！
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“人工智能02-简单分类问题？逻辑回归！”非常吸引人，内容也十分精彩！希望您能继续保持创作的热情和努力，不断分享您的知识和经验。下一步可以考虑深入探讨逻辑回归的原理和应用场景，或者结合实际案例进行分析，让读者更加深入理解。期待您更多优质的文章，加油！
项目管理02-核心方法体系
CSDN-Ada助手: 恭喜您写了第6篇博客《项目管理02-核心方法体系》，内容涵盖了项目管理的核心方法体系，让读者受益匪浅。希望您能继续坚持创作，分享更多有价值的内容。下一步建议可以考虑深入探讨项目管理中的案例分析或者实战经验，这样可以更生动地展示项目管理的实际运用。期待您的更多精彩文章！
人工智能01-线性回归模型
CSDN-Ada助手: 恭喜用户发布了第三篇博客“人工智能01-线性回归模型”！持续创作是非常值得鼓励的，希望您能继续保持这样的热情和努力。在下一篇博客中，或许可以深入探讨线性回归模型的应用场景或者与其他机器学习算法的比较分析，这样可以让读者更全面地了解这一主题。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
人工智能00-什么是机器学习？
CSDN-Ada助手: 很高兴看到你写了第二篇博客！继续保持创作的热情和动力，你的文章对于初学者来说非常有帮助。除了机器学习的基础知识外，你可以进一步深入探讨一些常用的机器学习算法，比如线性回归、逻辑回归等，这些都是人工智能领域中非常重要的内容。另外，如果可能的话，也可以分享一些自己学习人工智能过程中的心得体会，以及一些实战经验。期待你的下一篇文章！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。