这一章从线性回归模型的基本形式出发,主要围绕线性基函数的回归模型展开,分析了最大似然估计和最小平方误差函数的关系、最小平方误差函数的几何意义、正则化的最小平方误差,然后用偏置-方差分解的角度理解正则化项;用贝叶斯的思想分析线性回归模型,介绍了模型证据的意义,最后分析线性回归模型的局限性
线性基函数模型
基础
回归问题的最简单模型是输⼊变量的线性组合:
这通常被称为线性回归,模型的关键是它既是 { wk} 的线性函数,也是输入变量 { xi} 的线性函数,虽然简单但是也带来了很大的局限性。
考虑将输⼊变量的固定的⾮线性函数进⾏线性组合,形式为:
其中, ϕj(x) 被称为基函数,这个模型参数总数为M
这里 w0 是偏置参数,可以融入系数中,得:
现在, y(w,x) 是x的非线性函数,但它依然是 w 的线性函数,一般模型依然被称为线性模型
基函数选择有很多如
(1)径向基函数
(2)sigmoid
最大似然与最小平方
现在线性回归的模型已经搭建出来,考虑求解,假设⽬标变量 t 由确定的函数
假设噪声是零均值的高斯随机变量,精度为 β ,则对应的概率分布满足:
注意,这里有一个假设:给定x的条件下,t的条件分布是单峰的,这对于⼀些实际应⽤来说是不合适的。对于不同问题而言,这或许会是修改loss的起源之一。
那么,对于一个观测数据集 X={ x1,...,xN} ,它对应的后验概率为:
然后构造似然函数
其中,平方和误差定义为:
所以,平方和误差本身就是出自高斯分布的前提假设的。
对似然函数求导并令导数为0,可得到:
上式是最小平方问题的规范方程,其中 Φ 是 N×M 的设计矩阵,有: