baseline
学习目的
通过最简单的代码了解竞赛流程。
学习内容
第一步,报名比赛项目
第二步,运行baseline程序
第三步,提交结果文件
学习心得
简单而又必要,通过第一天的学习,可以简单快速的了解比赛流程,为以后参加类似比赛打下基础。
我对代码的理解
1.代码块的作用
这段代码是一个典型的数据处理和机器学习预测流程。计算每组平均值(id相同的多个对象为一组)得到预测值。这段代码是在anaconda运行的,通过python语言来实现功能。
2.对部分代码的解释
# 3. 计算训练数据最近11-20单位时间内对应id的目标均值
target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()
这行代码首先从 train 数据框中筛选出 dt 列值小于等于20的数据行。然后,使用 groupby(['id']) 对数据按照 id 进行分组。最后,对每个分组计算 target 列的均值,并使用 reset_index() 将结果重新设置索引,生成 target_mean 数据框。
选取target_mean前五行数据进行观察
# 4. 将target_mean作为测试集结果进行合并
test = test.merge(target_mean, on=['id'], how='left')
这行代码使用 merge() 函数将 target_mean 数据框按照 id 列与 test 数据框进行左连接 (how='left'),将计算得到的平均目标值合并到测试集test中。
查看此时的test数据集前五行