零基础入门数据挖掘--Task4 建模调参

主要内容

  • 根据选用模型的特性对数据进行处理,比如线性回归对特征的要求,需要独热编码,需要归一化,处理长尾分布等等
  • 模型性能验证的的一些包的使用:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;
  • 特征选择的方法:直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择,常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等
  • 进行模型对比:主要通过分析损失值
  • 模型调参的方法:1.贪心调参方法:即是一个特征一个特征的暴力穷举可能性 2.网格调参方法:暴力穷举多个特征的所有组合 3.贝叶斯调参方法:基于贝叶斯原理

1.线性回归查看回归模型的截距和权重

#简单建模
from sklearn.linear_model import LinearRegression #线性回归
model = LinearRegression(normalize=True) #选择线性回归模型
model = model.fit(train1, train1_Y)
#查看训练的线性回归模型的截距(intercept)与权重(coef)
'intercept:'+ str(model.intercept_)
sorted(dict(zip(train1.columns, model.coef_)).items(), key=lambda x:x[1], reverse=True)

2.查看数据的分布

#绘制特征v_9的值与标签的散点图,图片发现模型的预测结果(蓝色点)
#与真实标签(黑色点)的分布差异较大,且部分预测值出现了小于0的情况,
#说明我们的模型存在一些问题
from matplotlib import pyplot as plt
subsample_index = np.random.randint(low=0, high=len(train1_Y), size=50) #对训练样本随机采样
plt.scatter(train1['v_9'][subsample_index], train1_Y[subsample_index], color='black')
plt.scatter(train1['v_9'][subsample_index], model.predict(train1.loc[subsample_index]), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price','Predicted Price'],loc='upper right')
print('The predicted price is obvious different from true price')
plt.show()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值