直播课程 https://tianchi.aliyun.com/notebook-ai/detail?postId=95457
赛季理解
~拿到赛题,先阅读赛题。查看赛题背景和需要完成的任务。是否存在数据缺失,误报,飘移等情况。可能会包含处理数据需要的步骤。需要考虑模型的泛化能力。
~查看赛题,列名及描述。
~考虑显式特征和匿名特征。对于匿名特征做一些变换猜测特征的特点。考虑不同表之间的关联和匹配。
~考虑数据量,笔记本的承受能力。
评测标准
这道赛题使用MAE评测标准。
不同评测指标对模型的判断标准不一样,会影响评分。最好是让训练评测标准和赛题标准一致。
评估指标是对于模型效果的数值型量化,可以使用sklearn.metrics中的函数进行评分计算。
分类:敏感度(accuracy_score)、Precision、Recall、F1-score、AUC-score
回归:MAE(平均绝对误差)、MSE(均方误差)、MAPE(平均绝对百分误差)、R2-score
结果提交
注意提交的标准和格式。
例
这道题是典型的回归问题,主要有应用xgb、lgb、catboost以及pandas numpy seaborn sklearn等常用包和框架来挖掘。
使用sklearn的metrics来判断分类效果。
总结:
理解赛题是什么问题,需要完成什么。
对数据进行读取,了解数据分布。
根据赛题的评价指标,