和鲸社区“商业数据分析训练营”学习笔记2

 🐳 我正在和鲸社区参加“商业数据分析训练营”和鲸社区 - Heywhale.com,以下是我的学习笔记:

学习主题:统计分析与参数估计

日期:2023/09/21

关键概念/知识点:

  • Python描述性统计
    • 集中数据趋势的度量
    • 数据离散状况度量
    • 偏度、峰度
    • 异常值处理
      • 固定比例法
      • 均值标准差法
      • MAD法
      • Boxplot法
  • Python参数估计
    • 点估计与区间估计
    • 单正态总体均值区间估计
    • 单正态总体方差区间估计
    • 双正态总体均值差区间估计
    • 双正态总体方差比区间估计
  • Python参数假设检验
    • 假设检验的概念
    • 单个总体均值的假设检验
    • 两个独立总体均值的假设检验
    • 成对比较检验
    • 单个总体方差的假设检验
    • 两个总体方差的假设检验

掌握的新函数/方法:

  • 算数平均值:numpy.mean()
  • 中位数:numpy.median()
  • 众数:stats.mode()
  • 几何平均值:stats.gmean()
  • 调和平均值:stats.hmean()
  • 范围:numpy.ptp()
  • 方差:numpy.var()
  • 标准差:numpy.std()
  • 偏度:stats.skew()
  • 峰度:sstats.kurtosis()
  • 在python中各检验对应函数
    • 单个样本t检验:stats.ttest_1samp(a=x, popmean=μ)
    • 两个独立样本t检验:stats.ttest_ind(x,y)
    • 配对样本t检验:stats.ttest_rel(x,y)
    • 单样本方差假设检验:(n-1)* np.var(x)/0.01

关键总结:

  • 集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常见的度量方法有平均值、中位数、众数等等。
  • 离散程度指标可以说明集中趋势指标的代表性是什么样子的,还可以用来说明事物在发展变化过程中的均衡性、节奏性和稳定性等问题。
  • 偏度是与正态分布相比较,描述某总体取值分布的对称性。当偏度=0时,则表示数据分布与正态分布偏斜程度相同;偏度>0,数据分布与正态分布相比正/右偏,有一条“尾巴”拖在右边;偏度<0,数据分布比正态分布相比负偏/左偏,有一条“尾巴”拖在左边。

  • 峰度用来描述总体中所有取值分布形态陡缓程度。以3为界点,当峰度=3时,该总体数据分布与正态分布陡缓程度相同;峰度>3,该总体数据分布比正态分布陡峭;峰度<3,该总体数据分布比正态分布平坦。

  • 异常值处理

    •  固定比例法:即为设置固定比例来判断是否异常。比如把上下2%值重新设置,大于99%分位数的数值,则将其设置为99%分位数值;若小于1%分位数的数值,则将其设置为1%分位数值。

    • 均值标准差法:通常把3倍标准差之外的值视为异常值。不过由于样本均值和标准差计算本身受到极值影响较大,所以可能出现在数据分布图上明显看到异常点,而异常点按计算仍处在3倍标准差内。

    • MAD法:对均值标准差法的改进,将样本均值用样本中位数代替,样本标准差用样本绝对中位差MAD代替。

    • Boxplot法

问题/困惑:

  • 相关函数和公式实在是太多了,一点也记不住,而且很容易混淆
  • 继续完成本训练营的关卡3

参考资料/相关资源链接:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值