模型
回归(regression)是监督学习 ① 的一个重要问题,是从输入空间到输出空间 ② 的映射函数,等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且能很好的预测未知数据。
在监督学习中,模型即为所要学习的条件概率分布或决策函数,线性回归的假设空间(hypothesis space) ③ ,是由一个参数向量决定的函数族。
当输入变量为多个时,即多元回归;当输出变量表示为输入变量的线性组合时,即为常见的线性回归形式。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示,大多情况下,会将实例从输入空间映射到特征空间再做线性运算,特征对结果的影响强弱可以由前面的参数体现,所以说,线性回归可以对样本是非线性的,只要对参数 θ 是线性的
线性回归函数模型记作:
其中, x 为特征向量
hθ(x) 为预测值;
θ 为需要学习的参数。
策略
给定假设空间后,需要根据一个评价准则利用训练集学习参数,寻找对训练数据预测最好的参数,将这个参数作为该模型的参数。
对给定的n个属性(特征)描述的样本矩阵
X(m,n)
和长度为m的目标向量
y
X的每一行对应一个样本,共m个样本(measurements);
X的每一列对应样本的一个维度,共N维(regressors),外加一维全1常数项;
则训练集可表示为:
线性回归的常用评价准则为最小化损失函数,选用平方损失作为损失函数,以预测值和真实值的误差的平方和为目标函数,即最小二乘法(可用中心极限定理与最大似然估计解释为什么选用这个目标函数,本质为假设参数 θ 服从正态分布,详细见附录) ④ 记为:
xi
表示多个输入变量中的第
i
个,
最终求得
附录
①监督学习 :在给定的训练数据集中,假设数据独立同分布,每组数据都有一个明确的标识(label)或结果,在建立预测模型的过程中,将训练数据的预测结果与实际结果进行比较,在给定的策略下,不断调整预测模型,直到模型的预测结果达到一个预测的准确率,常见的应用场景包括分类(classification)与回归(regression)。当数据未给定明确的标识或结果,即为无监督学习,这时的学习模型是为了推断数据的一些内在结构,聚类(clustering)是其常见的应用,有时候会通过聚类给数据添加标签,将问题转化为监督学习问题。
②输入空间,输出空间:输入与输出可能取值的集合
③假设空间:输入空间到输出空间的映射集合,包含所有可能的条件概率分布或决策函数。
④:最小二乘解释:
⑤:参数解析式求解: