![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
比赛
akon_wang_hkbu
这个作者很懒,什么都没留下…
展开
-
kaggle-titanic top 2%初体验之特征工程
对kaggle-Titanic的初体验import一些要用包In [1]:import pandas as pdimport numpy as npimport warningsimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn impor原创 2017-10-18 14:34:19 · 668 阅读 · 0 评论 -
Ensembling&Stacking models(模型融合)
具体见GitHubhttps://github.com/wangxupeng/Competition/blob/master/Kaggle-titanic/Ensembling%20%26%20Stacking%20models.ipynb原创 2017-10-18 15:42:22 · 1420 阅读 · 0 评论 -
样本不均衡
什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。②在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占转载 2017-10-10 19:58:22 · 5082 阅读 · 0 评论 -
缺失值的处理方法
(1)缺失量较少,用填充方法(2)缺失量很大,丢弃该字段(3)缺失量适中,可以作为一个新的类型原创 2017-10-10 20:08:25 · 669 阅读 · 0 评论