- 统计学习的过程:
确定包含所有可能模型的假设空间
确定各个模型学习的策略
利用不同的算法求解各个模型
进行模型评估和选择:对各个模型进行评估,最终选择最优模型
利用最优的模型对数据进行预测或分析。
例子: 用 房屋价格预测的例子更好理解这一个过程。
真实房价 y 与房屋面积 (x1) 、房间数量 (x2) 等特征有关。现在要求我们建模实现房屋价格的预测问题。
第一步,我们应该先确定假设空间。
可以用线性回归模型 f1(x)=wTx
假设1:我们认为房价很只取决于房屋面积 (x1)
h1(x)=ω0+ω1x1
假设2:我们认为房价只取决于房屋面积 (x1)和房间数量(x2)
h2(x)=ω0+ω1x1+ω2x2
也可以用多项式回归模型拟合曲线: f2(x)=w0+w1x1+w2x22。
则假设空间为:
Ω={f1(x),f2(x)}
其实,假设空间的就是你要选择什么模型去解决一个问题,从大方向上说,你可以选择线性模型,也可以多项式回归模型,选择了一个模型后还要继续做假设,探究在不同特征数量下哪个模型的性能更好。
第二步,确定`f1(x),f2(x)两个模型各自的学习的策略:
在线性回归问题中,采用最小化平方损失函数法
minw,θ(fw,θ(x)−y)2
选择算法分别求解f1(x),f2(x)两个模型:
对于f1(x)=ωTx+b: 可以采用梯度下降算法求解最佳参数 ω∗,得到最优模型:y=ω∗Tx+b∗.
类似的,得到对 f2(x)=wTx+θTx2 的最优模型: f2(x)=w∗Tx+θ∗Tx2
进行模型评估和选择:对各个模型进行评估,最终选择最优模型
通过一些模型选择的方法,从 f1(x),f2(x) 中选择出好的模型,假设是 f1(x)
用 f1(x) 进行预测或分析。