洞见趋势系列三-模型训练(Baseline模型)

最新推荐文章于 2024-07-05 00:01:55 发布

Dcy_ASK

最新推荐文章于 2024-07-05 00:01:55 发布

阅读量2.2k

点赞数

分类专栏：数据挖掘文章标签：机器学习 python 大数据

本文链接：https://blog.csdn.net/weixin_42961082/article/details/113875328

版权

该博客探讨了模型训练的过程，从数据归一化开始，涉及Logistic回归、Random Forest和LightGBM模型。作者通过检验多项式特征和领域知识特征的有效性，讨论了特征重要性对模型预测能力的影响。

摘要由CSDN通过智能技术生成

Baseline模型-未完待续篇

开始Baseline模型训练之前，还需要做数据归一化。
数据标准化就是:数据按最小值中心化后,再按极差(最大值-最小值)缩放，数据会被收敛到[0,1]之间，目的是让特征大小变换到统一风格。
使用sklearn.preprocessing的MinMaxScaler来实现这个功能

1.数据归一化

form sklearn.preprocessing import MinMaxScaler
labels_train=df_train['TARGET']
feature_train=df_train.drop(['TARGET'],axis=1)
feature_names=feature_train.columns
# 归一化
scaler=MinMaxScaler()
scaler.fit(feature_train)
feature_train=scaler.transform(feature_train)
feature_test=scaler.transform(df_test)

2.Logistic回归模型

首先使用sklearn的LogisticRegression作为第一个模型，使用L2正则，惩罚系数为C（用于控制拟合的程度，越大越能控制拟合）

from sklearn.linear_model import LogisticRegression
# 创建Logistic回归模型，设置惩罚项系数C为1.0
lr=LogisticRegression(penalty='l2',C=1.0,class_weight='balanced')
lr.fit(feature_train,labels_train)
# 使用predict_proba做模型预测，预测出来是0-1的取值，可以看做是概率，结果去第二列即可。
lr_pred=lr.predict_proba(feature_test)[:,1]
lr_pred