(接”西安房价在下个月内什么地方最值得买?——上篇“)
解决问题的思路
- 爬取数据(安居网、链家网、房天下)
- 清洗数据
- 选择对价格影响最大的特征
- 运用机器学习算法和房价数据信息,对下个月的房价进行一个预测
- 算出每个区域的增长率并排序
第四步:运用机器学习算法和房价数据信息,对下个月的房价进行一个预测
4.1 怎么建立一个模型(这是我讲解时用到的ppt,见我的房价ppt)
4.2 岭回归模型
建立的步骤:
用Sklearn自带的cross validation方法来测试模型
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score
#以10为底,从10的-3次方到10的2次方,生成50个等比数列
alphas = np.logspace(-3, 2, 50)
test_scores = []
for alpha in alphas:
clf = Ridge(alpha)
test_score = np