一、研究方法
此次研究中主要用的是系统聚类法与K-means聚类法。
系统聚类可以对变量或样品进行聚类,变量可以为连续或分离变量,提供的距离测量方法和结果表示也非常丰富。该方法的原理是先将所有n个变量或观测看成不同的n类,然后将性质最接近的两类合并为一类;再从这n-1类中找到最接近的两类加以合并,以此类推,直到所有的变量或观测被合为一类。
K-means聚类需要先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。
二、实证分析
数据来源
地区居民消费水平差异的测度方法有单一指标法和综合指标法2种方法.居民消费水平不仅仅体现在人均消费性支出等单一指标,居民生活消费的各个具体指标等也是居民消费水平的重要体现.因此,文章选择综合法分析我国城镇居民消费水平的差异,以我国31个省市为研究对象,以中国统计年鉴2005年的各地区城镇居民家庭平均每人全年消费性支出统计数据为基础,选取食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、教育文化、居住娱乐服务、杂项商品和服务等8个方面的指标,构建聚类分析模型。
模型构建
数据文件的建立
导入数据并查询数据结构