正规方程是通过求解代价函数的导数,令导数为0来求theta的值。
第一个等式是线性回归的代价函数,第二个等式是将其写成向量化的形式。
我们知道向量的转置乘以该向量的含义是求出向量中各元素的平方和
令导数为0时求出theta最小值为
下面我们对theta的求导过程进行推导:
推导一相对好理解,推导二中对应向量的求导可以参考向量与矩阵求导与实例分析中对于求导的例子。
另外
对于那些不可逆的矩阵(通常是因为特征之间不独立,如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征,也有可能是特征数量大于训练集的数量),正规方程方法是不能用的。
求特征参数的两种方法,梯度下降与正规方程的比较:
梯度下降 | 正规方程 |
需要学习率,需要多次迭代 | 不需要 |
一次运算得出,当特征数量n大时也能较好使用 | 如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为O(n^3),通常来说当n小于10000时还是可以接受的 |
适用于各种类型的模型 | 只适用于线性模型,不适用于逻辑回归模型等其他模型 |
Reference:
[1] 吴恩达机器学习
[3]向量与矩阵求导与实例分析