多元相关性分析_一篇短文读懂聚类分析

最新推荐文章于 2024-02-24 13:03:43 发布

weixin_39639049

最新推荐文章于 2024-02-24 13:03:43 发布

阅读量1.9k

点赞数

文章标签：多元相关性分析

一、聚类分析概念

聚类(Cluster)分析，顾名思义就是指将研究的对象进行分类，这是人们认识世界最基本的方法。生物学家通过分类，区分了动物和植物，物理学分成了力、热、声、电，化学分成了有机和无机。古老的分类学，人们主要靠经验和专业知识实现分类，随着人类对自然的认识不断加深，仅靠经验和专业知识已不能准确分类，于是最早把数学工具引进了植物分类，出现了种、属、科、目、纲、门和界的自大而小的阶梯结构，一定程度上反映了种系发生和进化的规律。后来随着多元分析的引进，从植物分类学中逐渐分离出一个专门进行聚类分析的分支。

与多元分析的其他方法相比，聚类分析是很粗糙的，理论尚不完善，但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等，因此成了多元分析的重要方法，统计包中都有丰富的软件，对数据进行聚类处理。

聚类分析除了独立的统计功能外，还有一个辅助功能，就是和其他统计方法配合，对数据进行预处理。例如，当总体不清楚时，可对原始数据进行聚类，根据聚类后相似的数据，各自建立回归分析，分析的效果会更好。同时如果聚类不是根据个案，而是对变量先进行聚类，聚类的结果，可以在每一类推出一个最有代表性的变量，从而减少了进入回归方程的变量数。

聚类分析是研究按一定特征，对研究对象进行分类的多元统计方法，它并不关心特征及变量间的因果关系。分类的结果，应使类别间个体差异大，而同类的个体差异相对要小。例如，同学间会自然地形成一些小圈子，圈子内的人际关系比较密切，分析其原因，可能是爱好、家庭背景、性格、学习成绩相近等，这种物以类聚、人以群分的现象，在社会生活中是普遍存在的。分类法也是人类认识自然的一种古老和基本的方法。不仅很多学科的发展是从分类开始，而且分类对学科还起到了关键作用。

和聚类相近的，还有一种也是用于分类的统计分析方法，称判别分析，严格说，它不是分类方法，而是归类的方法。判别的分类，是根据外在事先导出的准则，分成了若干类别，然后将新的对象归入已知的类别。而聚类分析是所有研究的个案，它们之间的关系都是未知的，甚至连总共有几类都不知道。聚类分析是根据事物本身相似的程度进行分类的。但聚类分析与判别分析也可以是研究工作的两个阶段，首先通过样本的聚类，建立起科学的分类，然后，以此分类为依据，指导新的发现对象，判别它应该属于哪一类别。

例如考古学家根据某地古人类颅骨的长、宽、高、额、鼻、眶、面、齿等22组指标，通过聚类分成了5类，这使以后发现的颅骨判别其属类有了依据。又如中国的传统医学，认为人的体质是不同的，同样的病症，对不同的体质，用药应有所不同，但为了弄清楚体质的不同，曾进行了近千人的调查，通过32个有关健康表相的问题，聚成了9类不同的体质，有了这9种体质的量表，可以准确地判别病人的体质，从而做到一人一方。所以在某些领域，如航空探矿、指纹识别、语音识别、文字识别等，判别分析的重要性与回归分析相当。

聚类分析之所以称作统计方法，是因为这些计算方法往往要用到统计学中的一些基本概念，如平均值、方差、相关系数等。但是聚类所处理的数据并不是统计意义下的样本，一般不要求随机抽样，研究结论也不要求外推，不涉及显著性检验等问题。

二、聚类分析概述

简单说，聚类分析就是研究物以类聚的多元统计分析方法。这里的物，就是我们所收集的样本，通过比较样本中各事物之间的性质，将性质相近的聚为一类，性质差别比较大的分在别的类。

而所谓性质，是由一个或多个指标所组成的指标群来表达，因此如何选择指标(群)就成了研究事物的关键，特别要强调的是聚类统计分析，只是提供了数学工具，而统计包充其量只是代替人工进行繁琐的数学运算，所以聚类的结果、分类是否有效，关键在于指标的选择，它既要精炼又要没有重大的遗漏，而这些都是专业本身要解决的问题。例如研究城市归类，如果缺少了人均GDP，或者研究人口素质，缺少了人均期望寿命，显然这样的归类都是虚假的或不成功的。

聚类分析分为两类。一类是对个案进行聚类，称作Q型聚类，另一类是对变量进行聚类，称作R型聚类。社会学研究一般都是大样本，由于个案多，常转化为变量间的相关，采用R型聚类。

但随着社会学研究内容的扩大，其中也不乏小样本的研究。例如，对城市发展水平的分类，企业类型的评估等，研究的对象，仅限于有限的城市和企业，这时就需要用到Q型聚类分析。

聚类分析的基础数据，都是来源于原始的调查表，为了解释聚类分析的过程，这里虚拟了一份调查结果。

设调查了7个省份12项指标：人口、就业、教育、收入、住房、公共交通、闲暇、医疗、犯罪、平均绿地占有率、空气质量、饮用水。录入数据后，每个省份占据调查表的一行，第一列是省份名称(序号)，第二列至第十三列，依次是该省份12项指标得分，最后得到了7个省份，共7×13的矩阵表9-1：

根据表9-1可以作两类聚类：一类是研究这7个省份中，哪几个省份更相近，是否可以归成几类，因为它的分析单位是省份，每个省份就是一个个案，所以按省份归类，就是按个案归类，这类称Q型聚类。另一类是表9-1中所列的指标(变量)，研究变量间是否是相互有关的，例如文化程度、收入、住房等之间，可能存在一定的相关，并按变量间相关程度，将变量(指标)聚合为若干类别，使得每类的内部，变量间相关性强，而类别的外部，变量间相关性弱，这类称作R型聚类。

这两类看似有很大区别，实际如果把个案和变量都统一看作研究对象，那么，它们都是探讨研究对象之间的相似性，Q型聚类研究的是个案之间的相似性，而R型聚类研究的是指标(变量)之间的相似性。当从一个个案或变量，过渡到由若干个个案或变量聚合成的小类，再由小类逐步聚合成更大的大类，其聚合的过程，都是根据个案之间或类与类之间的相似性进行的。因此如何度量相似性是聚类的核心问题。

本文节选自卢淑华：《多元社会统计分析基础》，北京大学出版社，2017年8月版。