kaggle赛后总结

最新推荐文章于 2024-11-09 12:16:08 发布

python-码博士

最新推荐文章于 2024-11-09 12:16:08 发布

阅读量331

点赞数

分类专栏： kaggle 文章标签：机器学习 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54634272/article/details/132643922

版权

kaggle 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1. 宽表

在这里插入图片描述

2.缺失值的处理方法

最简单粗暴的就是删除，这种情况是凡是有缺失值行数很少。
均值替代。缺失值的行数比较多一点儿的时候，直接删除会影响样本数量，那就均值替代，或者中位数替代等方法。
还有复杂的方法，把有缺失值的列做Y标签，用其他列做X，训练模型，缺失值处用预测值替代，很繁琐，但效果比较好一点。

3.超参搜索

超参搜索通过代码放到每个算法上。这个很有价值，因为模型训练就实现了自动化。模型训练，处理数据处理，特征工程外，很关键的就是调整参数，让模型精度实现最优。

4.不均衡数据处理

主要是不同种类标签的数量有的非常多，有的非常少。把非常少的，进行简单的复制黏贴使每个标签种类的数量达到1000，实现所有标签种类的大体均衡，成为均衡数据

5.书籍推荐

李沐的《统计学习》
周志华《机器学习》

6.hierarchical model，层级模型，分层模型

有2个底层逻辑不同的算法，分别命名为算法1，和，算法2。算法1较弱一点。

我们用算法1的预测结果作为新特征X，放进训练数据集。相当于，我用算法1去训练模型1时，有30个X (x1,x2,~~, x30) , 现在算法1模型的预测结果作为x31，这样训练数据就有31个X了，再算法2去训练模型2，再去做预测。

如果用算法1训练模型1，并把所有训练数据都做预测，预测结果作为新特征x31？

用三折法，（或者五折法），即：把train数据随机均分成三份，dataset1，dataset2，dataset3。拿dataset1和dataset2这两份训练模型合并在一起，用算法1训练模型model3，并对dataset3数据做预测，预测结果Ypred3，作为新特征放进dataset3中，作为新的1/3训练数据dataset3new。

依次类推，分别把用dataset2和dataset3合并起来，依然用算法1训练模型model1，并对dataset1做预测，预测结果Ypred1作为新的特性放进dataset1中，作为新的1/3训练数据dataset1new。

再求出dataset2new，最后合并dataset1new，dataset2new，dataset3new成datasetnew。

使用datasetnew数据做训练，用算法2训练基于算法2的M2。

用train数据（包含dataset1，dataset2，dataset3），用算法1训练模型M1，对testsuperset做预测，预测结果Ypred_testsuperset作为新的特性重新放入testsuperset之中，生testsuperset_new。再用M2对testsuperset_new重新预测，预测结果作为最后结果submission_new提交kaggle。

理论上，这时的精度更好。

这就是分层模型。

注意：算法1和2是不同底层逻辑的不同算法。

7.基于逻辑回归的多分类算法

multiple logistical
regression model
Deep Belief Networks (DBNs)
Radial Basis Function Networks (RBFNs)

8.学习器结合

算法1：BLAST
算法2：PSI-BLAST
算法3：HMMER
算法4：HHSearch
最后将上述结果通过投票规则，选出得票最高的每个sequence的term值，及其相似性的取值。

9.集成学习总结：Adaboosting、随机森林、Bagging、结合策略

10.学习器结合能带来三点好处

在这里插入图片描述

python-码博士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。