人工智能教程 - 学科基础课程2.6 - 机器学习导论 4.多变量线性回归,多维特征量,特征缩放,均值归一化

KuFun元宇宙

于 2020-02-24 20:23:06 发布

阅读量517

点赞数

分类专栏：学科基础课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104476153

版权

学科基础课程专栏收录该内容

22 篇文章 1 订阅

订阅专栏

本文介绍了多变量线性回归的概念，包括多维特征的线性假设和通用模型，并探讨了梯度下降算法在多变量情况下的应用。重点讲解了特征缩放的重要性，以解决不同特征尺度差异导致的收敛速度慢的问题，提出通过均值归一化将特征约束到特定范围内以优化梯度下降的效果。

摘要由CSDN通过智能技术生成

矩阵(Matrix)

是由数字组成的矩形阵列

Rectangular arrty of numbers
Demensions of matrix: number of rows X number of columns

向量(vector)

一个向量是一种特殊的矩阵，其只有一列矩阵

An n X 1 matrix

also called n-dimensioned vector

多变量(多元)线性回归

Multivariate linear regression

多维特征

实际生活中，我们往往需要多个特征量

Hypothesis:

$h_\theta (x) =\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$

多维特征Hypothesis

多元线性回归 Multivariate linear regression

通用模型

$\LARGE\color{red}h_\theta (x) =\theta_0\color{blue}(x_0)\color{red}+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$

For convenience of notation,define $x_0=1$

$x=\begin{bmatrix} x_0\\ x_1\\ x_2\\ .\\ .\\ .\\ x_n \end{bmatrix}\in \mathbb{R}^{n+1} \ \ \ \ \ \ \ \ \ \theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ .\\ .\\ .\\ \theta_n \end{bmatrix}\in \mathbb{R}^{n+1}$

$\LARGE\color{red}h_\theta (x)=\theta ^TX$

参数向量 $\theta$ 以及特征向量X的内积

多变量代价函数(cost function)

$\color{red}\LARGE J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

可以把 n+1 个 $\theta$ 参数想象成一个 n+1 维的向量 $\theta$

梯度下降算法

Gradient descent algorithm

repeat until convergence{

$\LARGE\color{red}\theta _j:=\theta _j-\alpha \frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1,...,\theta_n)$ (for j = 0 and j=1)

}

单变量的下降算法

在这里插入图片描述

多变量的梯度下降算法

梯度下降法实践之特征缩放

feature scaling

在这里插入图片描述

面临的多特征问题(Problem)：

特征之间的尺度(range)相差太大，需要加快梯度下降法的收敛速度，否则过于慢。比如有两个特征，房屋尺寸和房间数，房屋尺寸的范围是0-2000平方，房间数的范围是0-5间，差距太大导致绘制出来的椭圆形又扁又长，收敛速度太慢。

解决办法：Feature Scaling

让每一个特征约束到-1 到 +1 的范围内

Get every feature into approximately a $-1\leq x_i \leq 1$ range.

Note: $0\leq x_1 \leq 3,-2\leq x_2 \leq 0.5$ 其实也都可以，但是 $-100\leq x_3 \leq 100，-0.0001\leq x_4 \leq 0.0001$ 就不好了。

均值归一化 (Mean normalization)

抽象出来 $x_1\leftarrow \frac{x_1-\mu _1}{S_1}$

$\mu _1$ 是在训练集中特征 $x_1$ 的平均值 average value of $x_1$ feature in training set

$S _1$ 是该特征值的范围 ,最大值减去最小值 range : maximum value- minimum value

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。