kaggle上面的机器学习入门课程总结
首先是最基础的机器学习模型
决策树
我们在底部做预测的点叫做叶子。叶子处的分割和值将由数据决定
首先读入DataFrame的数据
melbourne_data = pd.read_csv(melbourne_file_path)
打印其列名
melbourne_data.columns
用dropna方法让NaN值视为不可用
melbourne_data.dropna(axis = 0)
取Price这一列作为输出的Y
y = melbourne_data.Price
选取特征,即输入X
melbourne_feature = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
列表里的参数也是数据集里面的列名
X = melbourne_data[melbourne_feature ]
导入决策树模型
from sklearn.tree import DecisionTreeRegressor
将模型实例化
melbourne_model = DecisionTreeRegressor(random_state=1)
random_state指定一个数字可以得到一个确定性结果
调用模型的fit方法,拟合曲线
melbourne_model.fit(X,y)
验证生成的模型
计算MAE Mean Absolute Error
导入误差计算函数
from sklearn.metrics import mean_absolute_error
预测价格
predicted_home_prices = melbourne_model.predict(X)
实际价格和预测价格在误差函数的大小
mean_absolute_error(y, predicted_home_prices)