机器学习在预测方面的应用,根据预测值变量的类型可以分为分类问题(预测值是离散型)和回归问题(预测值是连续型),前面我们介绍了机器学习建模处理了分类问题(具体见之前的文章),接下来我们以波斯顿房价数据集为例,做一个回归预测系列的建模文章。
实现功能:
使用sklearn提供的决策树(DecisionTreeRegressor)的API对波士顿房价数据集进行预测,并尝试将预测结果进行分析。
实现代码:
from sklearn.tree import DecisionTreeRegressor from sklearn.datasets import load_boston import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 加载数据集 boston=load_boston() df=pd.DataFrame(boston.data,columns=boston.feature_names) df['target']=boston.target #查看数据项 features=df[boston.feature_names] target=df['target'] #数据集划分 split_num=int(len(features)*0.8) X_train=features[:split_num] Y_train=target[:split_num] X_test=features[split_num:] Y_test=target[split_num:] # 决策树建模预测 regressor = DecisionTreeRegressor(random_state=0).fit(X_train,Y_train) y_pred=regressor.predict(X_test) # 可视化部分 sns.set(font_scale=1.2) plt.rcParams['font.sans-serif']='SimHei' plt.rcParams['axes.unicode_minus']=False plt.rc('font',size=14) plt.plot(list(range(0,len(X_test))),Y_test,marker='o') plt.plot(list(range(0,len(X_test))),y_pred,marker='*') plt.legend(['真实值','预测值']) plt.title('Boston房价决策回归树预测值与真实值的对比') plt.show()
实现效果:
本人读研期间发表5篇SCI数据挖掘相关论文,会不定期分享一些关于python机器学习、深度学习、数据挖掘基础知识与案例,致力于以最简单的方式理解和学习它们,欢迎关注一起交流讨论。
关注本订阅号(数据杂坛)即可在后台联系我获取相关数据集和源码,送有关数据分析、数据挖掘、机器学习、深度学习相关的电子书籍。