colab使用说明
1.上传文件
点击+New按钮可以添加本地的文件和程序(在colab中要读取的数据需要实现上床,这点不如Kaggle有很多可以直接用的数据)


2.选用高性能计算单元
点击右上角可以显示高性能的GPU
当然,更高性能的计算单元也意味着我们购买的计算单元消耗的速度越快
3.举一个栗子
打开ipynb
文件后即可运行代码(以下直接读取github中的开源数据)
import pandas as pd #导入Pandas,用于数据读取和处理
# 读入房价数据,示例代码中的文件地址为internet链接,读者也可以下载该文件到本机进行读取
# 如,当数据集和代码文件位于相同本地目录,路径名应为"./house.csv",或直接放"house.csv"亦可
df_housing = pd.read_csv("https://raw.githubusercontent.com/huangjia2019/house/master/house.csv")
df_housing.head #显示加州房价数据
把一个网上共享的数据集(csv文件)读入DataFrame
数据结构df_housing
中
X = df_housing.drop("median_house_value",axis = 1) #构建特征集X
y = df_housing.median_house_value #构建标签集y
drop
:把最后一列median_house_value
字段去掉,其他所有的字段保存为特征集X
把整个median_house_value
字段单独赋值给标签值Y
from sklearn.model_selection import train_test_split #导入数据集拆分工具
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.2, random_state=0) #以80%/20%的比例进行数据集的拆分
把数据集一分为二,80%用于训练,20%的数据用于测试。
from sklearn.linear_model import LinearRegression #导入线性回归算法模型
model = LinearRegression() #使用线性回归算法
model.fit(X_train, y_train) #用训练集数据,训练机器,拟合函数,确定参数
选定模型,也就是算法,通过其中的fit
方法来训练机器,进行函数拟合
y_pred = model.predict(X_test) #预测测试集的Y值
print ('房价的真值(测试集)',y_test)
print ('预测的房价(测试集)',y_pred)
当成功运行完fit
方法后,学习到的函数也已经保存在机器中了,可以用model
的predict
方法对测试集的房价进行预测。
print("给预测评分:", model.score(X_test, y_test)) #评估预测结果
还可以显示一下预测的大致得分(Sklearn线性回归模型score徐行给出的是R2分数,即预测值的方差何总体方差之间的差异)
import matplotlib.pyplot as plt #导入matplotlib画图库
#用散点图显示家庭收入中位数和房价中位数的分布
plt.scatter(X_test.median_income, y_test, color='brown')
#画出回归函数(从特征到预测标签)
plt.plot(X_test.median_income, y_pred, color='green', linewidth=1)
plt.xlabel('Median Income') #X轴-家庭收入中位数
plt.ylabel('Median House Value') #Y轴-房价中位数
plt.show() #显示房价分布和机器习得的函数图形
当然也可也用代码绘制出机器学习的函数,由于x的特征太多,我们将与房价关系最大的median_income
作为代表特征来显示散点图