第二次打卡数据处理

最新推荐文章于 2024-09-17 23:15:58 发布

椰汁黑糯米

最新推荐文章于 2024-09-17 23:15:58 发布

阅读量201

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lianqi1020/article/details/105055396

版权

本文详细介绍了参加数据比赛的过程，从理解赛题、数据预处理到模型构建。首先，理解赛题涉及数据背景、评测标准和提交格式。接着，通过EDA探索数据分布，使用sklearn.metrics评估模型。在数据处理中，涉及特征工程、缺失值处理。模型训练部分主要提及了xgb。最后，强调了探索性数据分析在建模中的重要性，包括绘图和统计分析。

摘要由CSDN通过智能技术生成

直播课程 https://tianchi.aliyun.com/notebook-ai/detail?postId=95457

赛季理解

~拿到赛题，先阅读赛题。查看赛题背景和需要完成的任务。是否存在数据缺失，误报，飘移等情况。可能会包含处理数据需要的步骤。需要考虑模型的泛化能力。
~查看赛题，列名及描述。
~考虑显式特征和匿名特征。对于匿名特征做一些变换猜测特征的特点。考虑不同表之间的关联和匹配。
~考虑数据量，笔记本的承受能力。

评测标准

这道赛题使用MAE评测标准。
不同评测指标对模型的判断标准不一样，会影响评分。最好是让训练评测标准和赛题标准一致。

评估指标是对于模型效果的数值型量化，可以使用sklearn.metrics中的函数进行评分计算。
分类：敏感度（accuracy_score）、Precision、Recall、F1-score、AUC-score
回归：MAE（平均绝对误差）、MSE（均方误差）、MAPE（平均绝对百分误差）、R2-score

结果提交

注意提交的标准和格式。

例

这道题是典型的回归问题，主要有应用xgb、lgb、catboost以及pandas numpy seaborn sklearn等常用包和框架来挖掘。

使用sklearn的metrics来判断分类效果。

总结：

理解赛题是什么问题，需要完成什么。
对数据进行读取，了解数据分布。
根据赛题的评价指标，

最低0.47元/天解锁文章

椰汁黑糯米

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

椰汁黑糯米 CSDN认证博客专家 CSDN认证企业博客

码龄8年

7: 原创

128万+: 周排名

32万+: 总排名

1313: 访问

: 等级

60: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

笔记 4篇

最新评论

西瓜书学习计划-3
CSDN-Ada助手: 非常感谢博主分享西瓜书学习计划-3，我觉得这篇博客非常实用，尤其是对于想深入了解机器学习的读者。我建议下一篇博客可以从机器学习实战的角度出发，结合具体案例，深入讲解常用的机器学习算法和实现过程，相信会有更多读者受益。期待你的下一篇技术文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。