一、学习知识点概括
特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维
二、学习内容
1.内存优化:
通过调整每列的数据类型较少内存占用
if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
df[col] = df[col].astype(np.int8)
2.长尾处理:
通过线性回归得到model,利用model得到y_pre,绘制某个col与y,y_pre的散点图。可以看出y是否是长尾分布,可以利用log_y = log(y+1)解决。将log_y最为target训练。
3.交叉验证,时间序列,学习曲线:
4.线性模型进行嵌入式特征选择:
L2正则化在拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。
xgboost等树模型中model_importance也可以用于特征选择的。
5.模型调参
贪心调参:先训练第一个参数,然后将最优值带入训练第二个参数,以此类推
网格调参:暴力搜索最优参数组合
贝叶斯调参:贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。
三、学习问题与解答
贝叶斯调的原理优点复杂。
四、学习思考与总结
建模重要的部分在于不同模型的对比以及调参。
406

被折叠的 条评论
为什么被折叠?



