第四周周报
在上一周中,我完成的内容主要有:数据处理以及模型选择与数据训练。
数据处理
我对于原数据中一些字符型数据,转换为数值型数据,如:
- employmentLength列中的< 1 year 与 10+ years,我首先将其转换为0 year与10 year,然后,只取数字部分,这样讲字符转换为了数值。
- 对于subGrade,我将其从A1到G5映射到了1到35。
我还将原数据中一些列删除,降低数据的维度,加快训练速度,并同时排除掉一些与结果无关的列,如id’,‘isDefault’,‘policyCode’,‘grade’,这些列或者只是唯一标识,或者只有单一值存在,或者有更详细的列代替,因此我将这些列删除。
模型选择
我采用的是lightgbm模型,它是GBDT的高效实现,主要具有简洁高效,占用内存少,支持并行化处理的特征。
我利用sklearn的train_test_split函数,将训练集进行划分,用于度量训练结果。
对于目前初步得到的结果,在比赛中的排名是:
在接下来的时间里,我主要需要对模型的参数进行进一步的优化,可以采用贝叶斯或者其他方法进行调整。另外,我需要对数据进行进一步的处理,我觉得通过数据处理可以更好地取得更优秀的结果。