《机器学习算法竞赛实战》笔记 - 第一部分 磨刀事半,砍柴功倍


《机器学习算法竞赛实战》笔记 - 第一部分 磨刀事半,砍柴功倍


I. 图书豆瓣背景:

在这里插入图片描述

II. 主要框架:

  • 初见竞赛
  • 问题建模
  • 数据探索
  • 特征工程
  • 模型训练
  • 模型融合

1. 初见竞赛:

竞赛平台:
  • Kaggle
  • 天池
  • DF(DataFountain)
  • DC(DataCastle,数据城堡)
  • Kesci(和鲸社区)
  • JDATA(京东旗下)
  • 企业网站

2. 问题建模:

虽然通常来说,竞赛的目标明确,但也不是所有竞赛的数据都是那种可以直接加入训练的形式。有些竞赛就常常会有一些不同于一般分类和回归评价指标的评估方式,参赛者往往需要根据对赛题的理解自行利用主办方提供的数据构造训练集与测试集。

3. 数据探索:

数据探索,习惯上被大家称为 EDA (Exploratory Data Analysis,探索性数据分析)。

这部分就需要结合对赛题背景业务的理解去看看数据长什么样子、数据是否和描述相符、数据包含哪些信息、数据质量如何等。

首先,要对数据有一个清晰的认知,主要是理解各个字段的取值含义、范围和数据结构等。然后更深层次的是要结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等。

4. 特征工程:

特征工程(Feature Engineering),机器学习大多数时候是在进行特征工程,特征决定了机器学习预测效果的上限,而算法只是不断地去逼近这个上限而已。也是耗费时间最长的阶段。

5. 模型训练:

在一般的机器学习算法竞赛中,参赛者大多偏爱GDBT类的树模型,常使用的树模型主要有 XGBoost 和 LightGBM。有时参赛者需要用到 LR、SVM 和 RF 等算法,有时需要用到 DNN、CNN、RNN 等深度学习模型以及它们的衍生模型,以及广告领域流行的 FFM 等。这部分主要依赖于参赛者的计算资源。

模型训练除了选择合适的模型之外,还有一部分需要花时间的就是参数调优。

6. 模型融合:

每一种算法都有其自身的优势和局限性,扬长避短,综合各个算法的优势可以使得模型的效果更好。模型融合有许多办法,诸如 Stacking、加权投票等。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
参考中的资源提到了一些常见的机器学习算法,包括K近邻算法、线性回归算法、逻辑回归算法和支持向量机(SVM)。这些算法都是监督学习的一部分,可以在机器学习算法竞赛中应用。此外,参考中的资源是关于Matlab算法学习指南,其中涵盖了信号处理、图像处理、数值计算和机器学习等领域的常见题型和算法示例。这些资源提供了详细的描述、示例代码和讲解,对于对Matlab算法和应用感兴趣的人群是非常有用的。另外,引用中提到了XGBoost算法的一些主要特点,包括稀疏感知算法、近似树学习、并行计算和核外计算等。XGBoost算法机器学习算法竞赛中也是一个非常流行的选择。所以,在机器学习算法竞赛实战中,你可以考虑使用K近邻算法、线性回归算法、逻辑回归算法、支持向量机(SVM)和XGBoost算法等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [机器学习算法基础(实战)](https://blog.csdn.net/weixin_42430904/article/details/82948030)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Matlab算法学习指南(数值计算、机器学习、信号处理、图像处理)](https://download.csdn.net/download/weixin_41784475/88221221)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [《机器学习算法竞赛实战》整理 | 五、模型训练](https://blog.csdn.net/qq_37039382/article/details/124541131)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

统计小白er

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值