总的来说,对无监督数据进行聚类并非易事。现如今的数据处理和探索无法准确的测量数据。这也意味着我们对数据的处理和探索变得愈发困难。
此外,关于在无监督学习的入门课程中,对拿来讨论的理想的案例,k-means教程,也只适用于数值特性。
在这篇文章中,作者将通过R语言进行非监督分类训练。
-
第一部分包括方法论:作者正在讨论使用距离的数学概念来衡量个体间相似性的问题。然后介绍了PAM集群算法(围绕medoids进行分割)以及选择最佳集群数(轮廓系数)的方法。
-
在第二部分中,作者将使用uci机器学习数据库中提供的银行营销数据集和Rtsne软件包中的一些函数来说明该方法。该数据集与葡萄牙某银行机构的电话营销活动相关。我们会把这些数据用于对监督学习情况的讨论。
第一部分:方法论
如何测量相似性
(数据科学家作用在于在对未知数据进行集群时,我们不能盲人摸象,只看到事物的一面。他们主张与数据产生一定的"距离",以便更全面地了解它们。)
距离是对个体之间相隔多远的数值度量,也就是说,用于测量个体之间的接近度或相似度的度量。面对众多的度量,作者必须要介绍的是 Gower distance (1971)。
Gower距离被用于计算个体之间部分差异的平均值。(Gower距离的范围为[0 1]。)