零基础入门数据挖掘--Task4 建模调参

最新推荐文章于 2024-07-12 15:56:49 发布

五木123

最新推荐文章于 2024-07-12 15:56:49 发布

阅读量425

点赞数

分类专栏：数据挖掘文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43129146/article/details/105249244

版权

主要内容

根据选用模型的特性对数据进行处理，比如线性回归对特征的要求，需要独热编码，需要归一化，处理长尾分布等等
模型性能验证的的一些包的使用：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；
特征选择的方法：直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择，常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等
进行模型对比：主要通过分析损失值
模型调参的方法：1.贪心调参方法：即是一个特征一个特征的暴力穷举可能性 2.网格调参方法：暴力穷举多个特征的所有组合 3.贝叶斯调参方法:基于贝叶斯原理

1.线性回归查看回归模型的截距和权重

#简单建模
from sklearn.linear_model import LinearRegression #线性回归
model = LinearRegression(normalize=True) #选择线性回归模型
model = model.fit(train1, train1_Y)
#查看训练的线性回归模型的截距（intercept）与权重(coef)
'intercept:'+ str(model.intercept_)
sorted(dict(zip(train1.columns, model.coef_)).items(), key=lambda x:x[1], reverse=True)

2.查看数据的分布

#绘制特征v_9的值与标签的散点图，图片发现模型的预测结果（蓝色点）
#与真实标签（黑色点）的分布差异较大，且部分预测值出现了小于0的情况，
#说明我们的模型存在一些问题
from matplotlib import pyplot as plt
subsample_index = np.random.randint(low=0, high=len(train1_Y), size=50) #对训练样本随机采样
plt.scatter(train1['v_9'][subsample_index], train1_Y[subsample_index], color='black')
plt.scatter(train1['v_9'][subsample_index], model.predict(train1.loc[subsample_index]), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price','Predicted Price'],loc='upper right')
print('The predicted price is obvious different from true price')
plt.show()

最低0.47元/天解锁文章

五木123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门数据挖掘--Task4 建模调参

主要内容根据选用模型的特性对数据进行处理，比如线性回归对特征的要求，需要独热编码，需要归一化，处理长尾分布等等模型性能验证的的一些包的使用：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；特征选择的方法：直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择，常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等进行模型...
复制链接

扫一扫