《机器学习算法竞赛实战》笔记 - 第一部分磨刀事半，砍柴功倍

统计小白er

已于 2022-10-13 20:21:09 修改

阅读量885

点赞数 1

分类专栏： # 深度学习文章标签：机器学习算法人工智能

于 2022-06-21 17:59:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40249337/article/details/125394953

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

《机器学习算法竞赛实战》笔记 - 第一部分磨刀事半，砍柴功倍

I. 图书豆瓣背景：

在这里插入图片描述

II. 主要框架：

初见竞赛
问题建模
数据探索
特征工程
模型训练
模型融合

1. 初见竞赛：

竞赛平台：

Kaggle
天池
DF（DataFountain）
DC（DataCastle，数据城堡）
Kesci（和鲸社区）
JDATA（京东旗下）
企业网站

2. 问题建模：

虽然通常来说，竞赛的目标明确，但也不是所有竞赛的数据都是那种可以直接加入训练的形式。有些竞赛就常常会有一些不同于一般分类和回归评价指标的评估方式，参赛者往往需要根据对赛题的理解自行利用主办方提供的数据构造训练集与测试集。

3. 数据探索：

数据探索，习惯上被大家称为 EDA （Exploratory Data Analysis，探索性数据分析）。

这部分就需要结合对赛题背景业务的理解去看看数据长什么样子、数据是否和描述相符、数据包含哪些信息、数据质量如何等。

首先，要对数据有一个清晰的认知，主要是理解各个字段的取值含义、范围和数据结构等。然后更深层次的是要结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等。

4. 特征工程：

特征工程（Feature Engineering），机器学习大多数时候是在进行特征工程，特征决定了机器学习预测效果的上限，而算法只是不断地去逼近这个上限而已。也是耗费时间最长的阶段。

5. 模型训练：

在一般的机器学习算法竞赛中，参赛者大多偏爱GDBT类的树模型，常使用的树模型主要有 XGBoost 和 LightGBM。有时参赛者需要用到 LR、SVM 和 RF 等算法，有时需要用到 DNN、CNN、RNN 等深度学习模型以及它们的衍生模型，以及广告领域流行的 FFM 等。这部分主要依赖于参赛者的计算资源。

模型训练除了选择合适的模型之外，还有一部分需要花时间的就是参数调优。

6. 模型融合：

每一种算法都有其自身的优势和局限性，扬长避短，综合各个算法的优势可以使得模型的效果更好。模型融合有许多办法，诸如 Stacking、加权投票等。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

统计小白er 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。