【Stanford机器学习笔记】2-Linear Regression with Multiple Variables

最新推荐文章于 2020-12-04 21:32:15 发布

iFun0

最新推荐文章于 2020-12-04 21:32:15 发布

阅读量3k

点赞数 2

分类专栏： Machine Learning 文章标签：机器学习斯坦福大学

本文链接：https://blog.csdn.net/Neil_Pan/article/details/51283439

版权

Machine Learning 专栏收录该内容

28 篇文章 2 订阅

订阅专栏

Notes：上一章中主要讲了单变量线性回归，这节课主要讲多变量线性回归，

1. Multiple Features

（1）多变量线性回归即是指具有多个特征变量（ $x_1,x_2,\cdots,x_n$ ）,例如房价估计，则可能使用面积，卧室数量，层数等特征一起决定房价。相应的，就会出现多个参数（ $\theta_1,\theta_2,\cdots,\theta_n$ ）。
这里写图片描述

（2）此时，假设函数 $h_{\theta}(x)$ 将变为：

h θ (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$h_{\theta}(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$
式中，

X={x1,x2,⋯,xn} $X=\{ x_1,x_2,\cdots,x_n \}$ 为,其中

x0=1 $x_0=1$ ，利用向量表示则为:

h θ (x) = θ T x

$h_{\theta}(x)=\theta^Tx$
式中，

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ϵ R n + 1, θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ϵ R n + 1

$x=\left[ \begin{matrix} x_0\\ x_1\\ x_2 \\ \vdots\\ x_n\\ \end{matrix} \right]\epsilon R^{n+1}, \theta=\left[ \begin{matrix} \theta_0\\ \theta_1\\ \theta_2 \\ \vdots\\ \theta_n\\ \end{matrix} \right]\epsilon R^{n+1}$

Notes：本课程中小写字母 $x,\theta$ 均表示向量，大写字母 $X,\Theta$ 均表示矩阵。

这里写图片描述

2. Gradient Descent for Multiple Variables

（1）针对多变量线性回归，假设函数变为以上形式，则代价函数 $J(\theta)$ 形式表示不变，改变的只是其中的假设函数项 $h_{\theta}(x^{(i)})$ 。
这里写图片描述
（2）上一节中，特征变量只有1个，则梯度下降算法形式为左边形式，现在特征变量有n（大于等于1）个，则梯度下降算法形式为右边形式，例如：

θ 1 : = θ 1 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 1

$\theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})x_1^{(i)}$
这里写图片描述

3. Gradient Descent in Practice-Feature Scaling

（1）机器学习、数据挖掘工作中，数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时，数据预处理的效果也直接影响了后续模型能否有效的工作。然而，目前的大部分学术研究主要集中在模型的构建、优化等方面，对数据预处理的理论研究甚少，可以说，很多数据预处理工作仍然是靠工程师的经验进行的。如果不同特征的阈值不同，相差很大，则会导致收敛速度减慢，所以需要进行特征归一化，即将所有特征的值域归一化到相同的值域，使得梯度下降算法收敛的速度加快。

这里写图片描述

Notes:
数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：

Min-Max标准化（Min-Max Normalization）
该方法也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：
$X n o r m = X - X m i n X m a x - X m i n$ $X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$
其中， $X_{max}$ 为样本数据的最大值， $X_{min}$ 为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
0均值标准化(Z-score standardization)
这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。转化函数为：
$X n o r m = X - μ σ$ $X_{norm}=\frac{X-\mu}{\sigma}$

应用范围：
1、在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。