【数据挖掘】【笔记】阅读之机器学习竞赛进阶

最新推荐文章于 2022-02-18 18:19:47 发布

moshlwx

最新推荐文章于 2022-02-18 18:19:47 发布

阅读量381

点赞数

分类专栏：数据挖掘笔记文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moshlwx/article/details/73729790

版权

笔记同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

教你如何在机器学习竞赛中更胜一筹（上）-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt

介绍一些建立机器学习模型的技巧

问答

解决ML问题的步骤

了解数据
- 检查变量类
- 可视化了解变量性质
评估指标
- 了解评估指标的变化趋势
确定交叉验证策略
- 初期阶段设置
- 获得可靠得分
超参调整
- 数据转换
  - 缩放
  - 异常值
  - 空值
  - 哑变量处理
  - 特征选择
  - 创建交互
- 选择算法
  - 使用多种算法
- 保持预测结果
- 组合模型

交叉验证

使用训练集验证集
重复评分
充分利用数据

缺失值处理

估算缺失值：
- 均值，中位数插值
- 在变量的正常范围之外标记。如-1， -9999
- 用一种可能性替换，例如与目标变量有关的事物
- 有时，空==0
- 尝试用已知值子集来预测缺失值
- 删除空值行

数据科学能力

将业务问题转化为机器学习问题 -> 继续转化为可解决的问题

kaggle与日常工作的区别

有一定比例重叠

kaggle之外
- 如何将业务问题转化为建模问题
- 如何监控模型的部署
- 如何解释困难的概念

比赛中需要的机器学习概念

数据探索
数据预处理
工具
metrics和优化
交叉验证
模型调整
集成

机器学习关注点

算法核心 or 使用
- 每天都有新东西出现，有时很难跟踪
- 关注机器算法的正确使用

黑盒模型

机器学习算法和深度学习能够提高准确度，但很难解释（黑盒）

数据科学家，应该努力确保有一种方法来测试模型对数据的预测结果有多好，而不是了解为什么能得到这样的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】【笔记】阅读之机器学习竞赛进阶

教你如何在机器学习竞赛中更胜一筹（上）-博客-云栖社区-阿里云 https://yq.aliyun.com/articles/73755?spm=5176.100239.bloglist.40.wxgxxt介绍一些建立机器学习模型的技巧问答
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。