数据挖掘之对比分析

对比分析通过绝对数、相对数等多种方式揭示事物差异。统计量如平均数、中位数、标准差揭示数据集中趋势和离中趋势。相关系数如Spearman Rank、Kendall Rank衡量变量间相关性,其绝对值越大,相关性越强。
摘要由CSDN通过智能技术生成

对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调,特别适合指标的横向和纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是关键,选择不合适,可能会得出错误的结论.
对比形式有以下几种:
1、绝对数比较:利用绝对数比较,寻找差异的常用方法
2、相对数比较:由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的指标,其数值表现为相对数,由于研究目的和对比基础不同,相对数分为以下几种:
a、结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或者质量。如居民食品支出额占消费支出总额比重、产品合格率等.
b、比例相对数:将同一体内不同部分的数值进行比较,表明总体内各部分的比例关系。如人口与性别比例、投资与消费比例等.
c、比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同的空间条件下数量对比关系.如:不同地区商品价格对比,不同行业、不同企业间某项指标对比等.
d、强度相对数:将两个性质不同,但有一定联系的总量指标进行对比,用以说明现象的强度、密度和普遍程度。如:人均国内生产总值用“元/人”,人口密度用“人/平方公里”
e、计划完成程度相对数:是某一时期实际完成数与计划数的对比,用以说明计划完成程度.
f、动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化的速度等.
统计量分析:用统计指标对定量数据进行统计描述,长从集中趋势和离中趋势两个方面进行分析,平均水平的指标是对个体集中趋势的度量,使用最广泛的是平均数和中位数,反映变异程度的指标则是个体离开平均水平的度量,使用最为广泛的是标准差(方差)、四分位间距。
其中均值对极端值很敏感,如果数据中存在极端值或者数据是偏态分布的,那么均值分析不能很好的反映数据的集中度,为了消除极端值的影响,可以采用截断均值或者中位数来度量数据的趋势,截断均值,就是去除最大值和最小值的平均数.
中位数:数据从小到大排列,排在最中间的那个数字.
众数:指数据集中出现最频繁的值,一般用于离散型变量和非连续型变量

离中趋势度量:极差=最大值-最小值
标准差度量:数据偏离均值的程度,


变异系数:变异系数度量标准差相对于均值的离中趋势,用来比较两个或者多个具有不同单位或者不同波动振幅的数据集的离中趋势.

四分位数:包括上四分位数和下四分位数。并将所有数值从大到小排列并分成四等份,处于第一个分割点的位置的数值是下四分位数,处于第二个分割点的位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。
四分位数间距是上四分位数减去下四分位数之差,

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值