kernel位置
COMPREHENSIVE DATA EXPLORATION WITH PYTHON
这个kernel从头到尾的分享了自己是如何选取特征的,内容还是很详实的。
总结一下:
- 用一张表格记录自己选择特征的一些分析信息,重要程度。
- 先分析目标女神
- 她的兴趣(与其他变量之间的关系:箱图,散点图)
- 相关矩阵来衡量特征之间的重要性
- 处理缺失值,离群值
- 标准化,方差齐性,线性化,缺少相关错误。这里其实没怎么看懂,有点难理解。
- 对于非数值特征,直接one-hot编码。
学习的知识点:1.正太概率论图。 2.方差齐性
先说第一点,这个概念有点点复杂,其实也好理解。
先讲出发点,目标是通过这个正态概率图,可以看出原分布和标准正态分布之间的关系。也就下面这个结果:
怎么来的这个图呢?
我们先讲一个概念:分位数。
先将标准定义:
这是概率论教材里面的基本定义,我们需要明确一个基本概念就行:那就是分位数是在x上的坐标点,这些点包围住了一定的面积(也就是概率α)
我们回到如何画出正态概率图:
这个图开始的左上角的z应该是负号,没有打印好!
一些个人理解:
-
这里的分位数,其实是下侧的。而且是等分的概率位置。
所以为什么标准正态分布是一条斜线,因为每次增加的概率一样的,那么位于该区间的值出现的概率也是一样的。 -
纵坐标是观测值的输入,一开始排序的。
第二个知识点:方差一致性
定义:被检验的各方差在给定显著性水平在统计上没有显著性差异。
以后填坑吧,这次暂时还没有用到!