Datawhale-Task01

最新推荐文章于 2024-07-23 16:23:28 发布

lyrnscar

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量133

点赞数

分类专栏： Datawhale 文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ltlf2net/article/details/108612203

版权

Datawhale 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

再次从零开始吧

一、数据

赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

二、标准

提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果（越大越好）。

三、结果

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。

个人理解

该问题为标准的分类问题，对于数据来说，是标准的4：1的训练集测试集划分，就以往经验来看，使用logistic回归应该能得到一个baseline，之后可以用过拟合的方式看一下具体精度，最后再进行调参。

赛题地址: link.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale-Task01

再次从零开始吧一、数据赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。二、标准提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果（越大越好）。三、结果提交前请确保
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。