每天一kernel:正太概率图

kernel位置

COMPREHENSIVE DATA EXPLORATION WITH PYTHON
这个kernel从头到尾的分享了自己是如何选取特征的,内容还是很详实的。
总结一下:

  1. 用一张表格记录自己选择特征的一些分析信息,重要程度。
  2. 先分析目标女神
  3. 她的兴趣(与其他变量之间的关系:箱图,散点图)
  4. 相关矩阵来衡量特征之间的重要性
  5. 处理缺失值,离群值
  6. 标准化,方差齐性,线性化,缺少相关错误。这里其实没怎么看懂,有点难理解。
    在这里插入图片描述
  7. 对于非数值特征,直接one-hot编码。

学习的知识点:1.正太概率论图。 2.方差齐性

先说第一点,这个概念有点点复杂,其实也好理解。
先讲出发点,目标是通过这个正态概率图,可以看出原分布和标准正态分布之间的关系。也就下面这个结果:
在这里插入图片描述
怎么来的这个图呢?
我们先讲一个概念:分位数。
先将标准定义:
在这里插入图片描述
在这里插入图片描述
这是概率论教材里面的基本定义,我们需要明确一个基本概念就行:那就是分位数是在x上的坐标点,这些点包围住了一定的面积(也就是概率α)

我们回到如何画出正态概率图:

在这里插入图片描述
这个图开始的z应该是负号
这个图开始的左上角的z应该是负号,没有打印好!
在这里插入图片描述
一些个人理解:

  1. 这里的分位数,其实是下侧的。而且是等分的概率位置。
    在这里插入图片描述
    所以为什么标准正态分布是一条斜线,因为每次增加的概率一样的,那么位于该区间的值出现的概率也是一样的。

  2. 纵坐标是观测值的输入,一开始排序的。

第二个知识点:方差一致性
定义:被检验的各方差在给定显著性水平在统计上没有显著性差异。
以后填坑吧,这次暂时还没有用到!

参考链接:
分位数
方差齐性
一致性检验

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值