Kaggle
kang0709
这个作者很懒,什么都没留下…
展开
-
Ensemble
Averaging两个具有显著差异的模型做Linear Blend1)多个模型的平均输出2)多个模型进行加权平均,加权系数可以通过Linear blending在validation上确定3)条件平均,不同条件下选取不同的模型Bagging相同模型不同版本的平均融合,不同状态下的模型具有不同的偏差和方差,通过模型的简单平均可以减少最后...原创 2020-03-21 20:52:28 · 733 阅读 · 0 评论 -
高级特征工程
均值编码(mean ecoding)1)有监督类型的编码方式:根据label进行编码,在类别Moscow中的feature_mean = #(target=1)/#Moscow(注意与frequency encoding编码的区别)means = X_tr.groupby(col).target.mean()train_new[col+'_mean_target'] = t...原创 2020-03-21 20:45:07 · 437 阅读 · 0 评论 -
EDA 分析
分析数据-设置验证集-检查数据泄露分析步骤: 了解领域知识 搜索关键词,搜索数据的含义 检查数据是否存在异常值,超出范围的值 理解如何生成特征 分析匿名数据(Anonymized data) 对于某些数据集中的特征被匿名的情况,我们需要通过一定的手段来推测特征的含义或者特征的类型。例如下表中,原始的text信息被使用一定的加密手段...原创 2020-03-20 11:39:03 · 473 阅读 · 0 评论