前言
大数据时代,数据即价值。国家决策、企业生产与个人选择,无时无刻不接触到数据(手机、经济、人工智能、生命科学,等等),统计学可以高效的处理数据洪流,并可以直观、容易的发现问题(内在规律)、高度总结、分析问题,并为国家决策、企业生产与个人选择提供决策依据、解决方案。
提示:以下是本篇文章正文内容,下面案例可供参考
一、 什么是描述统计分析?
1.1 集中趋势分析
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。
- 平均值:在数据非常对称,且仅显示出一种趋势时使用。
- 中位数:在数据由于异常值而发生偏斜时使用。
- 众数:在遇到类别数据时使用;当数据可以分为两个或更多组时使用。
1.2 离中趋势分析
离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。
- 全距/极差:由最大值(上界)减去最小值(下界)得到。仅描述了数据集的宽度,而没有描述数据在上下界之间的分布形态,易受异常值的影响。
- 四分位距/四分位差:有效避免异常值的影响,反映了中间50%数据的离散程度,越小数据越集中,越大数据越分散。
- 方差和标准差:通过观察数值与均值的距离,来量度数值的分布形态。即描述数据的离散程度(波动大小)。
- 标准分:即距离均值的标准差个数。提供了一种对不同数据集中的数据进行比较的办法。
- 变异系数:标准差与平均值之比。当需要比较测量尺度相差大或量纲不同的两组数据离散程度大小时,应当消除测量尺度和量纲的影响,而变异系数可以做到这一点。