图形化
饼状图:将数据划分为明显的几个组,对基本比例进行比较时有效,但比例接近时不宜使用。
条形图:精确显示频数,长度表示数值;当为类别型数据时使用;描述名字较长时,可以用横向条形图;多个条件时,可以用分段条形图或堆积条形图。
直方图:面积表示频数,长方形之间没哟间隔;当为数值型数据时使用。
折线图:显示趋势,添加多个对比组容易,只用于数值型数据;相比条形图,没那么精确直观。
平均数
数据偏斜:异常值位于右边,叫向右偏斜,尾巴在右边。
均值:当有异常值时,会使典型值不处于数据集中区。右偏时均值变高,位于中位数右边。均值对于抽样数据更稳定。
中位数:当个数为偶数时,会出现上面的问题。对称型数据,中位数和均值相等。概率密度函数等于0.5时对应的X为中位数。
众数:当众数很多时,失效。概率密度函数的最高点对应的X为众数。
方差、标准差、标准分(均值和方差不同时比较两个数据集)
去除异常值:四分位距
概率分布
几何分布:为成功一次需要多少次试验的概率。
二项分布:在n次试验的成功次数的概率。
泊松分布:给定区间事件发生次数的概率。
泊松分布近似二项分布的条件:n很大>5,p很小<0.1,λ=np(当n很大时二项分布很难计算,因此需要近似)。
以上都是离散数据的概率分布。
正太分布近似二项分布的条件:np>5,npq>5,同时需要连续性修正,即正太取X<n-0.5代替二项X<n。
正太分布近似泊松分布的条件:λ>15。
抽样统计
计算方差时除n是估计样本数据的样本方差,除n-1是用样本数据估计总体方差。因为总体方差比样本方差大。
比例的抽样分布:用该分布求出某一特定样本的比例的发生概率。
均值的抽样分布:计算样本均值的概率。
小样本估计总体方差用t分布,大样本用正太分布。
假设检验
原假设、备择假设(原假设不正确时的假设)。
X
2分布用于检验观测频数和期望频数的差异程度(1检验给定数据与指定分布的吻合程度,2两个变量的独立性)。