《深入浅出统计学》总结

图形化

饼状图:将数据划分为明显的几个组,对基本比例进行比较时有效,但比例接近时不宜使用。

条形图:精确显示频数,长度表示数值;当为类别型数据时使用;描述名字较长时,可以用横向条形图;多个条件时,可以用分段条形图或堆积条形图。

直方图:面积表示频数,长方形之间没哟间隔;当为数值型数据时使用。

折线图:显示趋势,添加多个对比组容易,只用于数值型数据;相比条形图,没那么精确直观。

平均数

数据偏斜:异常值位于右边,叫向右偏斜,尾巴在右边。

均值:当有异常值时,会使典型值不处于数据集中区。右偏时均值变高,位于中位数右边。均值对于抽样数据更稳定。

中位数:当个数为偶数时,会出现上面的问题。对称型数据,中位数和均值相等。概率密度函数等于0.5时对应的X为中位数。

众数:当众数很多时,失效。概率密度函数的最高点对应的X为众数。

方差、标准差、标准分(均值和方差不同时比较两个数据集)

去除异常值:四分位距

概率分布

几何分布:为成功一次需要多少次试验的概率。
二项分布:在n次试验的成功次数的概率。
泊松分布:给定区间事件发生次数的概率。
泊松分布近似二项分布的条件:n很大>5,p很小<0.1,λ=np(当n很大时二项分布很难计算,因此需要近似)。
以上都是离散数据的概率分布。
正太分布近似二项分布的条件:np>5,npq>5,同时需要连续性修正,即正太取X<n-0.5代替二项X<n。
正太分布近似泊松分布的条件:λ>15。

抽样统计

计算方差时除n是估计样本数据的样本方差,除n-1是用样本数据估计总体方差。因为总体方差比样本方差大。
比例的抽样分布:用该分布求出某一特定样本的比例的发生概率。
均值的抽样分布:计算样本均值的概率。
小样本估计总体方差用t分布,大样本用正太分布。

假设检验

原假设、备择假设(原假设不正确时的假设)。
X 2分布用于检验观测频数和期望频数的差异程度(1检验给定数据与指定分布的吻合程度,2两个变量的独立性)。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值