每天一kernel：正太概率图

最新推荐文章于 2022-11-23 16:36:30 发布

dlvector

最新推荐文章于 2022-11-23 16:36:30 发布

阅读量887

收藏 4

点赞数

分类专栏：竞赛项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_38148039/article/details/104807880

版权

竞赛项目专栏收录该内容

4 篇文章 0 订阅

订阅专栏

kernel位置

COMPREHENSIVE DATA EXPLORATION WITH PYTHON
这个kernel从头到尾的分享了自己是如何选取特征的，内容还是很详实的。
总结一下：

用一张表格记录自己选择特征的一些分析信息，重要程度。
先分析目标女神
她的兴趣（与其他变量之间的关系：箱图，散点图）
相关矩阵来衡量特征之间的重要性
处理缺失值，离群值
标准化，方差齐性，线性化，缺少相关错误。这里其实没怎么看懂，有点难理解。
对于非数值特征，直接one-hot编码。

学习的知识点：1.正太概率论图。 2.方差齐性

先说第一点，这个概念有点点复杂，其实也好理解。
先讲出发点，目标是通过这个正态概率图，可以看出原分布和标准正态分布之间的关系。也就下面这个结果：
在这里插入图片描述
怎么来的这个图呢？
我们先讲一个概念：分位数。
先将标准定义：

这是概率论教材里面的基本定义，我们需要明确一个基本概念就行：那就是分位数是在x上的坐标点，这些点包围住了一定的面积（也就是概率α）

我们回到如何画出正态概率图：

在这里插入图片描述
这个图开始的z应该是负号
这个图开始的左上角的z应该是负号，没有打印好！

一些个人理解：

这里的分位数，其实是下侧的。而且是等分的概率位置。

所以为什么标准正态分布是一条斜线，因为每次增加的概率一样的，那么位于该区间的值出现的概率也是一样的。
纵坐标是观测值的输入，一开始排序的。

第二个知识点：方差一致性
定义：被检验的各方差在给定显著性水平在统计上没有显著性差异。
以后填坑吧，这次暂时还没有用到！

参考链接：
分位数
 方差齐性
 一致性检验

dlvector

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
每天一kernel：正太概率图

kernel位置COMPREHENSIVE DATA EXPLORATION WITH PYTHON这个kernel从头到尾的分享了自己是如何选取特征的，内容还是很详实的。总结一下：用一张表格记录自己选择特征的一些分析信息，重要程度。先分析目标女神她的兴趣（与其他变量之间的关系：箱图，散点图）相关矩阵来衡量特征之间的重要性处理缺失值，离群值标准化，方差齐性，线性化，缺少相关错误...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值