人工智能教程 - 学科基础课程2.6 - 机器学习导论 5.学习率,多项式回归,标准方程法

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104485598

本文介绍了机器学习中的关键概念，包括如何选择合适的学习率，探讨了多项式回归在处理非线性问题中的应用，以及详细解释了标准方程法的计算过程，用于求解线性回归的参数。通过实例展示了如何构建设计矩阵并应用在标准方程中。

摘要由CSDN通过智能技术生成

梯度下降法实践学习率(Learning Rate)

绘制出 pluck cost function J

在这里插入图片描述

迭代的步数需要根据不同的算法做调整，30， 3000， 3000000

在这里插入图片描述

行之有效的方法是：去尝试使用不同的 $\alpha$

to choose $\alpha$ , try:

…,0.001 ,0.003,0.01,0.03, 0.1, 0.3, 1,…

多项式回归 polynomial regression

可以解决非常复杂，甚至于非线性函数

在这里插入图片描述

两个特征量用之一个特征量来表示

在这里插入图片描述

看上去二次模型 quadratic model 是一种方式，但是它会到一定程度就下降。我们可以考虑选用三次函数 cubic function。当然还有其他的解决办法比如开根号 square root function

标准方程法 Normal equation

在这里插入图片描述

在这里插入图片描述
X: m X (n+1)维
y: m 维
m: 是训练样本数量
n: 是特征变量数

$\theta=(X^TX)^{-1}X^Ty$

$x^{(i)}=\begin{bmatrix} x_0^{(i)}\\ x_1^{(i)}\\ x_2^{(i)}\\ .\\ .\\ .\\ x_n^{(i)} \end{bmatrix}\in \mathbb{R}^{n+1}$

$\ \ \ \ matrix)=\begin{bmatrix} ----(x^{(1)})^T----\\ ----(x^{(2)})^T----\\----(x^{(3)})^T----\\ .\\ .\\ .\\ ----(x^{(m)})^T---- \end{bmatrix}$

Example

if $x^{(i)}=\begin{bmatrix} 1 \\ x_1^{(i)} \end{bmatrix}$

$X=\begin{bmatrix} 1 & x_1^{(1)} \\ 1 & x_1^{(2)} \\ 1 & x_1^{(3)}\\ 1 & x_1^{(4)}\end{bmatrix},y=\begin{bmatrix} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ y^{(4)} \\ \end{bmatrix}$

$\theta=(X^TX)^{-1}X^Ty$

梯度下降和标准方程法的比较

gradient descent	Normal Equation
need to choose $\alpha$	no need to choose $\alpha$
needs many iterations	don’t need to iterate
Works well even when n is large	need to compute $X^TX)^{-1}$
–	slow if n is very large

人工智能教程 - 学科基础课程2.6 - 机器学习导论 5.学习率,多项式回归,标准方程法

梯度下降法实践 学习率(Learning Rate)

绘制出 pluck cost function J

迭代的步数需要根据不同的算法做调整，30， 3000， 3000000

行之有效的方法是：去尝试使用不同的 α \alpha α

to choose α \alpha α, try:

…,0.001 ,0.003,0.01,0.03, 0.1, 0.3, 1,…

多项式回归 polynomial regression

可以解决非常复杂，甚至于非线性函数

两个特征量用之一个特征量来表示

看上去二次模型 quadratic model 是一种方式，但是它会到一定程度就下降。我们可以考虑选用三次函数 cubic function。当然还有其他的解决办法比如开根号 square root function

标准方程法 Normal equation

θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)−1XTy

Example

if x ( i ) = [ 1 x 1 ( i ) ] x^{(i)}=\begin{bmatrix} 1 \\ x_1^{(i)} \end{bmatrix} x(i)=[1x1(i)​​]

θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)−1XTy

梯度下降和标准方程法的比较

梯度下降法实践学习率(Learning Rate)

行之有效的方法是：去尝试使用不同的 $\alpha$

to choose $\alpha$ , try:

$\theta=(X^TX)^{-1}X^Ty$

if $x^{(i)}=\begin{bmatrix} 1 \\ x_1^{(i)} \end{bmatrix}$

$\theta=(X^TX)^{-1}X^Ty$