一文读懂如何对混合型数据做聚类分析！

最新推荐文章于 2024-07-13 12:59:21 发布

cl15926282674

最新推荐文章于 2024-07-13 12:59:21 发布

阅读量1.5k

点赞数 1

文章标签： r语言数据库人工智能

本文通过R语言探讨混合型数据的聚类分析，介绍了Gower距离、PAM（围绕medoids进行分割）聚类算法和如何选择最佳集群数。并使用银行营销数据集展示应用，揭示了数据科学家如何处理无监督学习中的复杂数据类型。

摘要由CSDN通过智能技术生成

总的来说，对无监督数据进行聚类并非易事。现如今的数据处理和探索无法准确的测量数据。这也意味着我们对数据的处理和探索变得愈发困难。

此外，关于在无监督学习的入门课程中，对拿来讨论的理想的案例，k-means教程，也只适用于数值特性。

一文读懂如何对混合型数据做聚类分析！

在这篇文章中，作者将通过R语言进行非监督分类训练。

第一部分包括方法论：作者正在讨论使用距离的数学概念来衡量个体间相似性的问题。然后介绍了PAM集群算法（围绕medoids进行分割）以及选择最佳集群数（轮廓系数）的方法。
在第二部分中，作者将使用uci机器学习数据库中提供的银行营销数据集和Rtsne软件包中的一些函数来说明该方法。该数据集与葡萄牙某银行机构的电话营销活动相关。我们会把这些数据用于对监督学习情况的讨论。

第一部分：方法论

如何测量相似性

一文读懂如何对混合型数据做聚类分析！

（数据科学家作用在于在对未知数据进行集群时，我们不能盲人摸象，只看到事物的一面。他们主张与数据产生一定的"距离"，以便更全面地了解它们。）

距离是对个体之间相隔多远的数值度量，也就是说，用于测量个体之间的接近度或相似度的度量。面对众多的度量，作者必须要介绍的是 Gower distance （1971）。

Gower距离被用于计算个体之间部分差异的平均值。（Gower距离的范围为[0 1]。）

一文读懂如何对混合型数据做聚类分析！

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。