第二次打卡 数据处理

本文详细介绍了参加数据比赛的过程,从理解赛题、数据预处理到模型构建。首先,理解赛题涉及数据背景、评测标准和提交格式。接着,通过EDA探索数据分布,使用sklearn.metrics评估模型。在数据处理中,涉及特征工程、缺失值处理。模型训练部分主要提及了xgb。最后,强调了探索性数据分析在建模中的重要性,包括绘图和统计分析。
摘要由CSDN通过智能技术生成

直播课程 https://tianchi.aliyun.com/notebook-ai/detail?postId=95457

赛季理解

~拿到赛题,先阅读赛题。查看赛题背景和需要完成的任务。是否存在数据缺失,误报,飘移等情况。可能会包含处理数据需要的步骤。需要考虑模型的泛化能力。
~查看赛题,列名及描述。
~考虑显式特征和匿名特征。对于匿名特征做一些变换猜测特征的特点。考虑不同表之间的关联和匹配。
~考虑数据量,笔记本的承受能力。

评测标准

这道赛题使用MAE评测标准。
不同评测指标对模型的判断标准不一样,会影响评分。最好是让训练评测标准和赛题标准一致。

评估指标是对于模型效果的数值型量化,可以使用sklearn.metrics中的函数进行评分计算。
分类:敏感度(accuracy_score)、Precision、Recall、F1-score、AUC-score
回归:MAE(平均绝对误差)、MSE(均方误差)、MAPE(平均绝对百分误差)、R2-score

结果提交

注意提交的标准和格式。

这道题是典型的回归问题,主要有应用xgb、lgb、catboost以及pandas numpy seaborn sklearn等常用包和框架来挖掘。

使用sklearn的metrics来判断分类效果。

总结:

理解赛题是什么问题,需要完成什么。
对数据进行读取,了解数据分布。
根据赛题的评价指标,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值