数据挖掘4(建模调参)

一、学习知识点概括

特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维

二、学习内容

1.内存优化:

通过调整每列的数据类型较少内存占用

if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)

2.长尾处理:

通过线性回归得到model,利用model得到y_pre,绘制某个col与y,y_pre的散点图。可以看出y是否是长尾分布,可以利用log_y = log(y+1)解决。将log_y最为target训练。

3.交叉验证,时间序列,学习曲线:

4.线性模型进行嵌入式特征选择:

L2正则化在拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。
xgboost等树模型中model_importance也可以用于特征选择的。

5.模型调参

贪心调参:先训练第一个参数,然后将最优值带入训练第二个参数,以此类推
网格调参:暴力搜索最优参数组合
贝叶斯调参:贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。

三、学习问题与解答

贝叶斯调的原理优点复杂。

四、学习思考与总结

建模重要的部分在于不同模型的对比以及调参。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值