GBDT参数调优

摘要:

此处主要是如何利用GBDT以及如何进行调参,特征工程处理的比较简单。


特征工程:

  • City这个变量已经被我舍弃了,因为有太多种类了。
  • DOB转为Age|DOB,舍弃了DOB
  • 创建了EMI_Loan_Submitted_Missing这个变量,当EMI_Loan_Submitted 变量值缺失时它的值为1,否则为0。然后舍弃了EMI_Loan_Submitted
  • EmployerName的值也太多了,我把它也舍弃了
  • Existing_EMI的缺失值被填补为0(中位数),因为只有111个缺失值
  • 创建了Interest_Rate_Missing变量,类似于#3,当Interest_Rate有值时它的值为0,反之为1,原来的Interest_Rate变量被舍弃了
  • Lead_Creation_Date也被舍弃了,因为对结果看起来没什么影响
  • Loan_Amount_Applied和 Loan_Tenure_Applied的中位数填补了缺失值
  • 创建了Loan_Amount_Submitted_Missing变量,当Loan_Amount_Submitted有缺失值时为1,反之为0,原本的Loan_Amount_Submitted变量被舍弃
  • 创建了Loan_Tenure_Submitted_Missing变量,当Loan_Tenure_Submitted有缺失值时为1,反之为0,原本的Loan_Tenure_Submitted变量被舍弃
  • 舍弃了LoggedIn,和Salary_Account
  • 创建了Processing_Fee_Missing变量,当Processing_Fee有缺失值时为1,反之为0,原本的Processing_Fee变量被舍弃
  • Source-top保留了2个,其他组合成了不同的类别
  • 对一些变量采取了数值化和独热编码(One-Hot-Coding)操作

测试数据与训练数据合成

# 载入数据:
    train_df = pd.read_csv('Train.csv',encoding = "ISO-8859-1")
    test_df = pd.read_csv('Test.csv',encoding = "ISO-8859-1")
    # train_df['source'] = 'train'
    # test_df['source'] = 'test'
    df = pd.concat([train_df,test_df],ignore_index=True)
  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GBDT(Gradient Boosting Decision Tree)是一种常用的回归模型,它可以用来预测连续型变量的值,在实际应用中,我们需要对模型进行调优以达到更好的预测效果。下面我将介绍一些常用的GBDT回归模型调优方法。 1. 调整树的数量:GBDT模型是由多个决策树组成的,因此可以通过增加或减少树的数量来调整模型。在sklearn中,可以通过调整n_estimators参数来实现。 2. 调整树的深度:树的深度决定了模型的复杂度,过大或过小的深度都会影响模型的预测效果,因此需要选择一个合适的深度。在sklearn中,可以通过调整max_depth参数来实现。 3. 调整学习率:学习率是决定每次迭代更新的步长,过大或过小的学习率都会影响模型的预测效果,因此需要选择一个合适的学习率。在sklearn中,可以通过调整learning_rate参数来实现。 4. 调整子采样比例:子采样是指在构建每棵树的时候,随机抽取一部分样本用来构建树,这样可以减少过拟合的风险。在sklearn中,可以通过调整subsample参数来实现。 5. 调整特征采样比例:特征采样是指在构建每棵树的时候,随机抽取一部分特征用来构建树,这样可以减少过拟合的风险。在sklearn中,可以通过调整max_features参数来实现。 6. 调整正则化参数:正则化参数是控制模型复杂度的一个参数,过大或过小的正则化参数都会影响模型的预测效果,因此需要选择一个合适的正则化参数。在sklearn中,可以通过调整reg_alpha和reg_lambda参数来实现。 7. 调整损失函数:GBDT模型的损失函数可以选择平方误差、绝对误差等不同的损失函数,不同的损失函数会影响模型的预测效果。在sklearn中,可以通过调整loss参数来实现。 以上是常用的GBDT回归模型调优方法,可以根据实际情况选择合适的方法进行调优。在调优过程中,需要注意过拟合和欠拟合的问题,可以通过交叉验证等方法来解决。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值