【学习笔记】吴恩达机器学习 | 第二章 | 单变量线性回归

Chency.

已于 2023-07-15 09:54:52 修改

阅读量1.8k

点赞数 5

分类专栏：学习笔记【学习笔记】吴恩达机器学习文章标签：学习机器学习人工智能

于 2023-07-08 15:57:37 首次发布

本文链接：https://blog.csdn.net/jermy00/article/details/131612805

版权

学习笔记同时被 2 个专栏收录

27 篇文章 33 订阅

订阅专栏

【学习笔记】吴恩达机器学习

17 篇文章 29 订阅

订阅专栏

在这里插入图片描述

简要声明

课程学习相关网址
由于课程学习内容为英文，文本会采用英文进行内容记录，采用中文进行简要解释。
本学习笔记单纯是为了能对学到的内容有更深入的理解，如果有错误的地方，恳请包容和指正。
非常感谢Andrew Ng吴恩达教授的无私奉献！！！

专有名词

hypothesis	假设函数	Linear regression	线性回归
Parameter	模型参数	cost function	代价函数
Gradient descent	梯度下降	convex function	凸函数

Model representation

Training set of housing prices

在这里插入图片描述

Nocation
- m = Number of training examples →训练样本的数量
- x’s = “input” variable / features →输入变量 / 特征
- y’s = “output” variable / “target” variable →输出变量 / 目标变量
- (x, y) = single training example →一个训练样本
- (x⁽ⁱ⁾, y⁽ⁱ⁾) = i^th training example →第i个训练样本

Supervised learning algorithm work

在这里插入图片描述

training set → learning algorithm→hypothesis假设函数
h是一个映射x到y的函数

How do we represent h ?

$h_\theta(x)=\theta_0+\theta_1x$

Linear regression with one variable. = Univariate linear regression →单变量线性回归
θi’s: Parameters →模型参数

Cost function

How to choose θi’s ?

在这里插入图片描述

选择能使h(x)也就是输入x时预测的值最接近该样本对应的y值的参数θ_0, θ_1

$h_\theta(x)=\theta_0+\theta_1x$

$\mathop {minimize }\limits_{\theta_0 \ \theta_1} \ \frac{1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

找到参数θ0, θ1使得所有训练样本的h(x)预测值和y实际值之间的差的平方和最小化
m为训练样本的个数
1/2m为了减少平均误差（只是为了使数学更加直白一点）

cost function代价函数J(θ_0, θ_1)也叫做squared error function平方误差函数

$J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

$\mathop {minimize }\limits_{\theta_0 \ \theta_1} \ J(\theta_0,\theta_1)$

Formulation

Hypotheis:

$h_\theta(x)=\theta_0+\theta_1x$

Parameters:

$\theta_0,\theta_1$

Cost function:

$J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

Goal:

$\mathop {minimize }\limits_{\theta_0 \ \theta_1} \ J(\theta_0,\theta_1)$

Simplified cost function

$h_\theta(x)=\theta_1x\quad(\theta_0=0)$

$J(\theta_1)=\frac{1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

$\mathop {minimize }\limits_{\theta_1} \ J(\theta_1)$

如果θ_0=0相当于选择了经过原点的假设函数（过点(0,0)的函数）

在这里插入图片描述

分别计算θ_1对应的J(θ_1)可以绘制出J(θ_1)的曲线
学习算法的优化目标是通过选择θ_1的值获得最小的J(θ_1)

Two parameters cost function

在这里插入图片描述

随着θ_0和θ_1的不断接近代价函数的中心，假设函数对数据的拟合越来越好

Gradient descent

Outline

Start with some θ_0, θ_1 →随机从θ_0和θ_1的某个值出发
Keep changing θ_0, θ_1 to reduce J(θ_0, θ_1) until we hopefully end up at a minimum → 一步一步下山知道收敛至局部最低点
梯度下降算法的特点：不同的起始点出发会到达不同的局部最优解

在这里插入图片描述

Gradient descent algorithm

repeat until convergence {

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)\quad (for\ j=0\ and\ j=1)$

}

“:=”是赋值运算符，将右边的值赋值给左边
α称为学习速率，控制梯度下降的步子，其越大梯度下降越迅速
导数项表示对J求偏导

Simultaneous update

Correct:

$temp0:=\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)$

$temp1:=\theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)$

$\theta_0:=temp0$

$\theta_1:=temp1$

❌❌❌Incorrect:

$temp0:=\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1)$

$\theta_0:=temp0$

$temp1:=\theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1)$

$\theta_1:=temp1$

更新方程时需要同时更新θ_0和θ_1
正确方法：先同时计算右边部分，然后同时更新θ_0和θ_1
❌错误方法：先计算temp0然后更新θ_0，再计算temp1然后更新θ_1

Gradient descent intuition

在这里插入图片描述

导数表示切线的斜率，α学习速率大于0，当是正导数则参数θ减小，当是负导数则参数θ增加，J(θ)逐渐接近最小值

在这里插入图片描述

如果α太小，需要很多步才能到达最低点，梯度下降速度变慢
如果α太大，梯度下降可能会越过最低点，甚至可能无法收敛或者发散
如果已经在局部最优点，参数θ将不再改变
梯度下降时斜率会变小，参数θ更新的幅度也会变小
梯度下降法会自动采用更小的幅度，当接近局部最小点时导数值会自动变得越来越小，没必要另外减小α

Gradient descent for linear regression

$\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)=\frac{\partial}{\partial\theta_j}\cdot \frac{1}{2m} \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 \\ =\frac{\partial}{\partial\theta_j}\cdot \frac{1}{2m} \sum_{i=1}^m(\theta_0+\theta_1x^{(i)}-y^{(i)})^2$