Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发。
当涉及到预测数据(时间序列或其他类型的序列)时,人们会关注基本回归、ARIMA、ARMA、GARCH,甚至Prophet,但不排除使用随机森林来预测数据。
随机森林通常被认为是一种分类技术,但回归问题绝对是随机森林可以处理的。
在本文中,我打算使用在网上找到的一个数据集,叫做温莎市房屋销售价格。出于写作的目的,我将只使用价格(price)和批量(lotsize)列。注:在以后的文章中,我打算摒弃这些数据,并对随机森林进行多元回归。
为了开始,先让我们导入项目开始所需的所有库。和往常一样,你可以在这里使用jupyter笔记本来运行这个分析。
现在来加载数据:
同样,我们只使用数据集中的两列—价格(price)和批量(lotsize)。让我们把这些数据画出来,直观地看一看,用批量(lotsize)来预测价格(price)是否有意义。
从数据来看,使用批量来预测价格似乎是一个不错的猜测。
现在,让我们准备好数据集来训练和测试数据。
在上面,我们把随机森林回归量设置为X和y,然后设置我们的训练和测试数据。对于训练数据