🐳 我正在和鲸社区参加“商业数据分析训练营”和鲸社区 - Heywhale.com,以下是我的学习笔记:
学习主题:统计分析与参数估计
日期:2023/09/21
关键概念/知识点:
- Python描述性统计
- 集中数据趋势的度量
- 数据离散状况度量
- 偏度、峰度
- 异常值处理
- 固定比例法
- 均值标准差法
- MAD法
- Boxplot法
- Python参数估计
- 点估计与区间估计
- 单正态总体均值区间估计
- 单正态总体方差区间估计
- 双正态总体均值差区间估计
- 双正态总体方差比区间估计
- Python参数假设检验
- 假设检验的概念
- 单个总体均值的假设检验
- 两个独立总体均值的假设检验
- 成对比较检验
- 单个总体方差的假设检验
- 两个总体方差的假设检验
掌握的新函数/方法:
- 算数平均值:numpy.mean()
- 中位数:numpy.median()
- 众数:stats.mode()
- 几何平均值:stats.gmean()
- 调和平均值:stats.hmean()
- 范围:numpy.ptp()
- 方差:numpy.var()
- 标准差:numpy.std()
- 偏度:stats.skew()
- 峰度:sstats.kurtosis()
- 在python中各检验对应函数
- 单个样本t检验:stats.ttest_1samp(a=x, popmean=μ)
- 两个独立样本t检验:stats.ttest_ind(x,y)
- 配对样本t检验:stats.ttest_rel(x,y)
- 单样本方差假设检验:(n-1)* np.var(x)/0.01
关键总结:
- 集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常见的度量方法有平均值、中位数、众数等等。
- 离散程度指标可以说明集中趋势指标的代表性是什么样子的,还可以用来说明事物在发展变化过程中的均衡性、节奏性和稳定性等问题。
-
偏度是与正态分布相比较,描述某总体取值分布的对称性。当偏度=0时,则表示数据分布与正态分布偏斜程度相同;偏度>0,数据分布与正态分布相比正/右偏,有一条“尾巴”拖在右边;偏度<0,数据分布比正态分布相比负偏/左偏,有一条“尾巴”拖在左边。
-
峰度用来描述总体中所有取值分布形态陡缓程度。以3为界点,当峰度=3时,该总体数据分布与正态分布陡缓程度相同;峰度>3,该总体数据分布比正态分布陡峭;峰度<3,该总体数据分布比正态分布平坦。
-
异常值处理
-
固定比例法:即为设置固定比例来判断是否异常。比如把上下2%值重新设置,大于99%分位数的数值,则将其设置为99%分位数值;若小于1%分位数的数值,则将其设置为1%分位数值。
-
均值标准差法:通常把3倍标准差之外的值视为异常值。不过由于样本均值和标准差计算本身受到极值影响较大,所以可能出现在数据分布图上明显看到异常点,而异常点按计算仍处在3倍标准差内。
-
MAD法:对均值标准差法的改进,将样本均值用样本中位数代替,样本标准差用样本绝对中位差MAD代替。
-
Boxplot法
-
问题/困惑:
- 相关函数和公式实在是太多了,一点也记不住,而且很容易混淆
- 继续完成本训练营的关卡3
参考资料/相关资源链接:
- 商业分析师 Python 训练营 BA1:应用入门:和鲸社区 - Heywhale.com