今天用一个实例给大家写写在机器学习中如何进行训练集和测试集的划分。
实例操练
首先导入今天要使用的数据集
import pandas as pddf = pd.read_csv("carprices.csv")df.head()
这是一个汽车销售的数据集,里面的变量包括汽车里程、使用年限、销售价格。我们今天要做的就是用汽车里程、使用年限来建立一个预测销售价格的机器学习模型。
首先,我们画图看一看数据关系
import matplotlib.pyplot as pltplt.scatter(df['Mileage'],df['Sell Price($)'])plt.scatter(df['Age(yrs)'],df['Sell Price($)'])
运行以上代码可以出2个点图,分别展示汽车里程和销售价格的关系和使用年限和销售价格的关系。
使用年限和销售价格的关系散点图