打酱油参加了天池工业AI大赛1,当然没拿到奖,看决赛答辩直播时见识到了大佬们的各种思路,真是大开眼界。记录一下,留给以后参考。
1. 特征构造
这个是相当重要的
第一名那个女孩子并没有用什么高深的方法,但是对特征挖掘的特别好,并且提到我们可能要 “人工”智能,即是人为创造数据。1) 通过每个特征原始值与均值的差异,差异的绝对值构造。2) 通过可能特征的四则运算构造特征(当然,这是剔除掉部分原有特征后进行的,否则维度也太大了)。
2. 抗过拟合
由于大家主要使用的是皮尔森相关系数筛选的特征,那么确定相关系数(实际使用的是相关系数的绝对值)阈值就尤为重要。有个男孩子发现线下cv值并不随着阈值线性变化,而是表现出W型的变化趋势,即mse在两个阈值的时候都较低。所以,他分别使用这两个阈值标准筛选得到的训练数据建模、预测,对这两个模型融合(有可能直接用的平均,我忘记了)。
另外一个团队使用了深度学习的方法来做,原理可能是添加随机噪声什么的,具体我又忘记了。
3. 缺失值处理
其中一个男生使用的确实值处理方法可能有助于提高模型表现,他没有使用均值或中位数对缺失值进行处理,而是未对缺失值进行填充,使用了允许缺失值存在的xgboost模型。此外,有一些特征值为“0”的数据经判断后应该是机器上传过程中出现了错误等,他也把这些转化为了缺失值。