数据说·梦想季
成功的关键在于相信自己有成功的能力。数据之路,与你同行!——数据说·梦想季
导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据人必备的技能。
但是,统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,本文就不一一介绍了,感兴趣的同学请参考《深入浅出统计学》、《统计学:从数据到结论》等专业书籍。
统计学分为描述性统计学和推断性统计学。
一、
描述性统计
定义:使用特定的数字或图表来体现数据的集中程度和离散程度。
1、集中趋势集中趋势是指一组数据所趋向的中心数值,用到的指标有:算数均数、几何均数、中位数。
1) 算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。
2)几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
3)中位数:适用于偏态分布资料和一端或两端无确切的数值的资料,是第50百分位数。
4)百分位数:为一界值,用以确定医学参考值范围。
2、离散趋势是反映数据的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。
1)极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。