【Book_2010_Pattern Recognition 4th ENG 翻译-机翻】Chapter 11:Clustering: Basic Concepts

11.1 INTRODUCTION

前面的所有章节都与监督分类有关。在当前和接下来的章节中,我们转向无监督的情况,其中训练模式的类标签不可用。因此,我们现在主要关注的是“揭示”将模式组织成“有意义的”集群(组),这将使我们能够发现模式之间的相似性和差异,并得出关于它们的有用结论。这个想法在许多领域都有体现,例如生命科学(生物学、动物学)、医学科学(精神病学、病理学)、社会科学(社会学、考古学)、地球科学(地理学、地质学)和工程学 [Ande 73]。聚类可以在不同的上下文中以不同的名称找到,例如无监督学习和无老师学习(在模式识别中)、数值分类学(在生物学、生态学中)、类型学(在社会科学中)和划分(在图论中)。下面的例子受到生物学的启发,让我们了解了这个问题

考虑以下动物:羊、狗、猫(哺乳动物)、麻雀、海鸥(鸟类)、毒蛇、蜥蜴(爬行动物)、金鱼、红鲻鱼、蓝鲨(鱼)和青蛙(两栖动物)。为了将这些动物组织成簇,我们需要定义一个聚类标准。因此,如果我们采用这些动物生育后代的方式作为聚类标准,羊、狗、猫和蓝鲨将被分配到同一个聚类,而其余的将形成第二个聚类(图 11.1一种)。如果聚类标准是肺的存在,金鱼、红鲻鱼和蓝鲨被分配到同一个聚类,而所有其他动物被分配到第二个聚类(图 11.1b)。另一方面,如果聚类标准是动物生活的环境,羊、狗、猫、麻雀、海鸥、毒蛇和蜥蜴将形成一个聚类(生活在水外的动物);金鱼、红鲻鱼和蓝鲨将形成第二个集群(只生活在水中的动物);青蛙会自己形成第三个集群,因为它可能生活在水中或水中(图 11.1c)。值得指出的是,如果以脊柱的存在为聚类标准,那么所有的动物都将位于同一个聚类中。最后,我们也可以使用复合聚类标准。例如,如果聚类标准是这些动物生育后代的方式和肺的存在,我们最终会得到四个聚类,如图 11.1d 所示
在这里插入图片描述
此示例表明,将对象分配给集群的过程可能会导致非常不同的结果,具体取决于用于集群的特定标准

聚类是人类最原始的心理活动之一,用于处理他们每天收到的海量信息。将每条信息都作为一个实体来处理是不可能的。因此,人类倾向于将实体(即对象、人、事件)分类为集群。然后,每个集群都以其包含的实体的共同属性为特征。例如,大多数人“拥有”一个集群“狗”。如果有人看到一只狗睡在草地上,他或她会将其识别为集群“狗”的一个实体。因此,即使他或她以前从未听过这个特定实体的吠叫,个人也会推断出这个实体在吠叫

与监督学习的情况一样,我们将假设所有模式都以特征表示,这些特征形成 L维特征向量。

为了开发聚类任务,专家必须遵循的基本步骤如下:

  • 特征选择(Feature selection)。必须正确选择特征,以便编码尽可能多的有关感兴趣任务的信息。再一次,简约,因此特征之间的最小信息冗余是主要目标。与监督分类一样,在后续阶段使用特征之前,可能需要对特征进行预处理。那里讨论的技术也适用于这里
  • 接近测量(Proximity measure)。该度量量化了两个特征向量的“相似”或“不相似”程度。很自然地要确保所有选定的特征对邻近度度量的计算有同等贡献,并且没有任何特征支配其他特征。在预处理过程中必须注意这一点。
  • 聚类标准(Clustering criterion)。该标准取决于专家对合理一词的解释,基于预期作为数据集基础的集群类型。例如,l 维空间中的特征向量的紧凑集群根据一个标准可能是敏感的,而拉长的集群根据另一个标准可能是敏感的。聚类标准可以通过成本函数或一些其他类型的规则来表示
  • 聚类算法(Clustering algorithms)。在采用了邻近度度量和聚类标准后,这一步是指选择一种特定的算法方案来解开数据集的聚类结构
  • 验证结果(Validation of the results)。一旦获得了聚类算法的结果,我们就必须验证它们的正确性。这通常使用适当的测试来执行
  • 结果的解释(Interpretation of the results)。在许多情况下,应用领域的专家必须将聚类结果与其他实验证据和分析相结合,才能得出正确的结论

在许多情况下,应该涉及一个称为聚类趋势的步骤。这包括指示可用数据是否具有聚类结构的各种测试。例如,数据集可能是完全随机的,因此试图解开集群是没有意义的。

正如人们可能已经怀疑的那样,不同的特征选择、接近度度量、聚类标准和聚类算法可能会导致完全不同的聚类结果。从现在开始,主观性是我们必须忍受的现实。为了证明这一点,让我们考虑以下示例。考虑图 11.2。对于这些点,我们可以获得多少“合理”的聚类方式?最“合乎逻辑”的答案似乎是两个。第一个聚类包含四个聚类(由实心圆圈包围)。第二个聚类包含两个聚类(由虚线包围)。哪个聚类是“正确的”?似乎没有明确的答案。两个聚类都是有效的。最好的办法是将结果提供给专家,让专家决定最明智的结果。因此,这些问题的最终答案将受到专家知识的影响

在这里插入图片描述
本章的其余部分介绍了与聚类相关的一些基本概念和定义,并讨论了在各种应用中常见的邻近度量

11.1.1 Applications of Cluster Analysis

聚类是许多应用程序中使用的主要工具。为了丰富本书介绍章节中已经介绍的示例列表,我们在此总结了使用聚类的四个基本方向 [Ball 71, Ever 01]:

  • 数据缩减(Data reduction)。在某些情况下,可用数据的数量 N 通常非常大,因此,其处理变得非常苛刻。聚类分析可用于将数据分组为多个“合理的”聚类 m (N),并将每个聚类作为单个实体进行处理。例如,在数据传输中,为每个集群定义了一个代表。然后,我们不传输数据样本,而是传输与每个特定样本所在的集群的代表相对应的代码编号。因此,实现了数据压缩。
  • 假设生成(Hypothesis generation)。在这种情况下,我们将聚类分析应用于数据集,以推断有关数据性质的一些假设。因此,聚类在这里被用作提出假设的工具。然后必须使用其他数据集验证这些假设。
  • 假设检验(Hypothesis testing)。在这种情况下,聚类分析用于验证特定假设的有效性。例如,考虑以下假设:“大公司在国外投资。”验证这是否属实的一种方法是将聚类分析应用于一组具有代表性的大型公司。假设每家公司都以其规模、海外活动和成功完成应用研究项目的能力为代表。如果在应用聚类分析后,形成了一个与规模较大且在国外有投资的公司相对应的聚类(无论它们是否有能力成功完成应用研究项目),则该假设得到聚类分析的支持
  • 基于组的预测(Prediction based on groups)。在这种情况下,我们将聚类分析应用于可用数据集,并根据形成它们的模式的特征来表征生成的聚类。接下来,如果我们给定一个未知的模式,我们可以确定它更可能属于哪个集群,并根据各自集群的表征来对其进行表征。例如,假设将聚类分析应用于有关感染同一疾病的患者的数据集。根据他们对特定药物的反应,这会导致许多患者聚集。然后对于新患者,我们确定最适合该患者的集群,并根据它决定他或她的药物治疗(例如,参见 [Payk 72])。

11.1.2 Types of Features

特征可以从连续范围(R 的子集)或有限离散集中获取值。如果有限离散集只有两个元素,则该特征称为二元或二分

特征的不同分类基于它们所取值的相对重要性 [Jain 88, Spat 80]。我们有四类特征:名义的、有序的、区间尺度的和比率尺度的(nominal, ordinal,interval-scaled, and ratio-scaled)

第一个类别,名义上,包括其可能值代码状态的特征。例如,考虑一个与个人性别相对应的特征。它的可能值可能是男性为 1,女性为 0。显然,这些值之间的任何定量比较都是没有意义的。下一个类别,序数,包括其值可以有意义地排序的特征。例如,考虑一个表征学生在模式识别课程中表现的特征。假设它的可能值是 4、3、2、1,并且这些值对应于“优秀”、“非常好”、“好”、“不好”的评级。显然,这些值是按有意义的顺序排列的。然而,两个连续值之间的差异在数量上没有意义

如果对于一个特定的特征,两个值之间的差异是有意义的,而它们的比率是没有意义的,那么它就是一个区间尺度特征。一个典型的例子是以摄氏度为单位的温度测量。如果伦敦和巴黎的气温分别为5摄氏度和10摄氏度,那么说巴黎的气温比伦敦高5摄氏度是有意义的。然而,说巴黎比伦敦热一倍是没有意义的。

最后,如果一个特定特征的两个值之间的比率是有意义的,那么这是一个比率缩放的特征,第四类。这种特征的一个例子是体重,因为说一个体重为 100 公斤的人的脂肪是体重为 50 公斤的人的两倍是有意义的

通过将特征类型排序为名义、有序、区间尺度和比率尺度,我们可以很容易地注意到,每种类型的特征都具有之前类型的所有属性。例如,区间缩放特征具有序数和名义类型的所有属性。此信息将在第 11.2.2 节中使用。

在这里插入图片描述

11.1.3 Definitions of Clustering

聚类的定义直接导致单个“集群”的定义。多年来已经提出了许多定义(例如,[John 67, Wall 68, Ever 01])。然而,这些定义大多是基于松散定义的术语,例如相似和相似等,或者它们是面向特定类型的集群的。正如 [Ever 01] 中所指出的,这些定义中的大多数都是模糊的和循环的。这一事实揭示了对术语集群有一个普遍接受的定义的困难

在 [Ever 01] 中,向量被视为 l 维空间中的点,簇被描述为“该空间中包含相对高密度点的连续区域,通过相对低密度的区域与其他高密度区域分开点的密度。”以这种方式描述的集群有时被称为自然集群。这个定义更接近于我们在二维和三维空间中对集群的视觉感知。

现在让我们尝试给出“聚类”的一些定义,尽管它们可能不是通用的,但让我们了解什么是聚类。设 X 为我们的数据集,即
在这里插入图片描述
我们定义为 X 的 m-clustering,将 X 划分为 m 个集合(簇),C1,…,Cm,从而满足以下三个条件:

在这里插入图片描述

此外,簇Ci中包含的向量彼此“更相似”,而与其他簇的特征向量“不太相似”。量化相似和不相似的术语在很大程度上取决于所涉及的集群类型.例如,紧凑集群需要其他度量(测量相似性)(例如,图 11.3a),拉长集群需要其他度量(例如,图 11.3b),而壳形集群需要不同的度量(例如,图 11.3c)。
在这里插入图片描述
请注意,在前面的聚类定义下,每个向量都属于一个聚类。由于稍后将变得清楚的原因,这种类型的聚类有时被称为硬或脆。另一种定义是根据 Zadeh [Zade 65] 引入的模糊集。将 X 模糊聚类为 m 个簇的特征在于 m 个函数 uj 其中
在这里插入图片描述
这些称为隶属函数(membership functions)。模糊隶属函数的值是一个集合的数学表征,在我们的例子中就是一个簇,它可能没有被精确定义。也就是说,每个向量x“在某种程度上”同时属于多个簇,这由区间[0,1]中uj的对应值来量化。接近 1 的值表明相应集群中的“成员等级”较高,而接近 0 的值表示成员等级较低。这些隶属函数的值表示数据集的结构,从某种意义上说,如果隶属函数对于 X 的两个向量(即 xk,xn)具有接近统一的值,则认为它们彼此相似 [Wind 82]。

(11.3) 中的正确条件保证了不存在不共享任何向量的集群的一般情况。这类似于上述定义的条件 Ci ≠ ∅

如果我们定义模糊隶属函数 uj 取 {0, 1} 中的值,即为 1 或0. 从这个意义上说,每个数据向量都只属于一个集群,并且隶属函数现在称为特征函数([Klir 95])。

11.2 PROXIMITY MEASURES

11.2.1 Definitions

我们从关于向量之间度量的定义开始,稍后我们将扩展它们以包括数据集 X 的子集之间的度量

在这里插入图片描述
d 称为度量 DM。不等式 (11.8) 也称为三角不等式。最后,等价 (11.7) 表明,当 X 中的任何两个向量相同时,它们之间的最小可能相异度值 d0 达到。有时我们将相异程度称为距离,其中该术语不是在其严格的数学意义上使用

在这里插入图片描述
dissimilarity measure(相异性度量)
在这里插入图片描述
然而,并不是所有的聚类算法都基于向量之间的邻近度度量。例如,在层次聚类算法中,必须计算 X 的向量集对之间的距离。在接下来,我们扩展前面的定义以测量 X 的子集之间的“接近度”。设 U 是包含子集的集合即,Di ⊂ X,i 1, … , k, and U {D1, … , Dk}。 U 上的接近度度量 ℘ 是一个函数:
℘ : U × U → R ℘ : U × U → R :U×UR
等式 (11.4)–(11.8) 用于dissimilarity measures和等式(11.9)–(11.13) 现在可以重复similarity measures,用 Di、Dj 代替 x 和 y 和 U 代替 X

通常,两个集合 Di 和 Dj 之间的接近度是根据 Di 和 Dj 的元素之间的接近度来定义的。
在这里插入图片描述
在这里插入图片描述
在接下来的文章中,我们将回顾最常用的两点之间的邻近度度量。对于每个相似性度量,我们给出相应的不相似性度量。我们将用 b m i n b_{min} bmin b m a x b_{max} bmax表示它们对有限数据集 X 取的相应最小值和最大值

11.2.2 Proximity Measures between Two Points

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值