描述性统计学 Descriptive Statistics
对原始数据集进性归纳就是描述性统计学所做的事。我们深知,数据越多,事实越模糊,因此需要简化。我们将一系列复杂的数据序列减少为几个能够起到描述作用的数字,这些数字为我们提供了一个争对原始数据的可操作、有意义的概括。
坏消息是,任何一种简化都会面临被滥用的风险。
数字特征
- 集中趋势 (Central Tendency of Location)
- 变异 (Dispersion)
- 偏态 (Skewness)
- 峰态(Kurtosis)
集中趋势
某套数据的中间位置
常用的集中趋势指标
- 平均值(容易受异常值的影响)
- 中位数 (还有四分位数)
- 众数
思考问题:
何时用平均数?何时用中位数或众数?
有一个常识:当一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。
中位数的好处是描述了具体值在与其他数据进行比较时所处的位值。
举例:
假如你接到一个任务,分析比较你的公司和竞争对手公司产品保修期内出现的质量返修问题。