kaggle
hyq3235356
这个作者很懒,什么都没留下…
展开
-
数据预处理之归一化
关于归一化,网上的内容大部分都是在重复归一化的好处,但是之前被问到什么模型可以不做归一化?还有归一化具体的代码实现这边把这部分的内容也都一起总结一下一、什么时候可以不做归一化?什么时候可以不做归一化,这个问题其实很难回答,百度和谷歌后,也没得到满意的结果,这边我结合查到的比较靠谱的资料,写一下自己的理解。1. 数据属于同量纲的时,且分布较均匀。这是在知乎上看到的一点,但其实这种原创 2017-11-07 20:46:28 · 13030 阅读 · 0 评论 -
特征选择
这篇主要整理一下,从kaggle的房价预测和泰坦尼克号两个比赛的tutorials 和 discuss学习到的方法一、单变量与目标关系1、连续型变量:点阵图var = 'GrLivArea'data = pd.concat([df_train['SalePrice'], df_train[var]], axis=1)data.plot.scatter(x=var, y='SaleP原创 2017-11-07 22:02:39 · 863 阅读 · 0 评论 -
数据预处理之缺失值、异常值处理
缺失值的检查与处理应该来说是比较简单的,这篇先来说说异常值的检查与处理一、异常值的检查异常值的检查,最初我都是作图观察,把那些明显偏离了整体分布情况的点划归为异常点,这样的做法也带有比较强的主观性。这边补充一些用来判断异常值的统计学方法。1、基于正态分布的一元离群点检测方法假设有 n 个点 ,那么可以计算出这 n 个点的均值 和方差。均值和方差分别被定义为:原创 2017-11-08 10:27:45 · 5515 阅读 · 0 评论