机器学习入门——加州房价问题

这篇博客展示了如何使用Python的Pandas库读取加州房价数据集,并运用线性回归模型进行房价预测。首先,数据被加载并预处理,接着通过train_test_split划分训练集和测试集。然后,利用sklearn库的LinearRegression训练模型,并在测试集上进行预测。最后,通过散点图展示实际房价与预测房价的关系,并计算模型的评分。
摘要由CSDN通过智能技术生成
#加州房价数据集
import pandas as pd #导入Pandas,用于数据读取和处理
# 读入房价数据,示例代码中的文件地址为internet链接,读者也可以下载该文件到本机进行读取
# 如,当数据集和代码文件位于相同本地目录,路径名应为\"./house.csv\",或直接放\"house.csv\"亦可
df_housing = pd.read_csv("./house.csv")
df_housing.head #显示加州房价数据
print(df_housing)#打印

X = df_housing.drop("median_house_value",axis = 1)# 构建特征集x,用drop方法把最后一列median_house_value去掉,其他所有字段都是特征集X
y = df_housing.median_house_value #构建标签集y房价

from sklearn.model_selection import train_test_split #导入数据集拆分工具
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=0) #以80%/20%的比例进行数据集的拆分,80%训练集,20%测试集

from sklearn.linear_model import LinearRegression #导入线性回归算法模型
model = LinearRegression() #使用线性回归算法
model.fit(X_train, y_train) #用训练集数据,训练机器,拟合函数,确定参数
y_pred = model.predict(X_test) #预测测试集的Y值
print ('房价的真值(测试集)',y_test)
print ('预测的房价(测试集)',y_pred)
print("给预测评分:", model.score(X_test, y_test)) #评估预测结果

#导入matplotlib画图库
# #用散点图显示家庭收入中位数和房价中位数的分布
import matplotlib.pyplot as plt
plt.scatter(X_test.median_income, y_test,  color='brown')#画出回归函数(从特征到预测标签)
plt.plot(X_test.median_income, y_pred, color='green', linewidth=1)
plt.xlabel('Median Income') #X轴-家庭收入中位数
plt.ylabel('Median House Value') #Y轴-房价中位数
plt.show() #显示房价分布和机器习得的函数图形

详细的解释在代码的注释中,这里就不赘述了。
运行结果:
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值