（机器学习笔记一）回归分析

最新推荐文章于 2021-05-01 08:59:31 发布

明烨海海

最新推荐文章于 2021-05-01 08:59:31 发布

阅读量1.1k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/f476559604/article/details/52457861

版权

1.监督学习

训练集: $\{(X^{(i)},Y^{(i)} );i=1,2,\cdots,m\}$
$X:$ 表示输入值
$Y:$ 表示输出值
$i:$ 表示训练集中的样本索引。
学习结果：函数 $h:X \rightarrow Y$ ，使得 $h(X)$ 能够很好的预测 $Y$
由于历史原因 $h$ 被称作假设(hypothesis).

如果目标变量是连续的值，我们称这个学习问题是一个回归问题。
如果目标变量是很少的几个离散的值，我们称它为分类问题。

2.线性回归

形如关于 $X$ 的线性函数：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2

$h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2$

θi $\theta_i$ 是参数

hθ(x) $h_\theta(x)$ 在不造成困惑的前提下可以简写为

h(x) $h(x)$

x0=1 $x_0=1$ 这是截距项
上式可以写为：

h (x) = \sum i = 0 n θ i x i = θ T x

$h(x)=\sum_{i=0}^n \theta_ix_i=\theta^Tx$
右边把

θ,x $\theta,x$ 视为向量

n $n$ 是输入的变量的个数（不算

x0 $x_0$ ）
我们通过给的训练集，去学习选择

θ $\theta$

训练集：eg：房屋售价问题

面积 $x_1$	卧室数 $x_2$	价格y
2104	3	400
1600	3	330
2400	3	369
$\vdots$	$\vdots$	$\vdots$

我们训练的目标就是要让 $h(x)$ 尽量与 $y$ 相符。
为了达到这个目标，我们需要一个代价函数来评估。

普通最小二乘法（OLS）,代价函数为：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac1{2m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
其中

12 $\frac12$ 是为了方便在求导的时候约掉系数。

i: $i:$ 样本索引

m: $m:$ 样本总数

3.LMS 算法(least mean squares algorithm)

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$
当只有一个样本时，即

m=1 $m=1$ , 计算简化得到：

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j

$\theta_j:=\theta_j+\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$

j $j$ 为第j个参数

i $i$ 为第i个训练样本

这个就是LMS更新规则，它有几个属性似乎是自然的直观的。更新误差项是均衡的，误差项越小相应参数的改变越小，误差项越大，相应参数的改变越大

4.梯度下降法

当很多样本时，怎么样来更新迭代 $\theta$ 值

批量梯度下降(batch gradient descent)

$\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x i) - y i) x i j = - 1 m \sum i = 1 m (y i - h θ (x i)) x i j$ $\begin{align} \frac{\partial}{\partial\theta_j}J(\theta) &=\frac1m\sum_{i=1}^m(h_\theta(x^i)-y^{i})x_j^i \\ &=-\frac1m\sum_{i=1}^m(y^{i}-h_\theta(x^i))x_j^i \end{align}$
求得每个 $\theta_j, j\in(1,2,\cdots,n)$
$θ j : = θ j + 1 m \sum i = 1 m (y i - h θ (x i)) x i j$ $\theta_j:=\theta_j+\frac1m\sum_{i=1}^m(y^{i}-h_\theta(x^i))x_j^i$
计算出新的 $h_\theta(X)$ 然后再迭代下一步。
最终得到全局最优解。
可以看到每一步迭代bgd都要遍历全部的样本，速度较慢。
增量(increment)梯度下降 (随机(stochastic)递度下降法)

$θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j$ $\theta_j:=\theta_j+\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$
每一步迭代只利用一个样本，比bgd快，但不一定能聚焦收敛到最小值，可能会在最小值附近摆动，但是由于通常情况下局部最小值都接近全局最小值，所以当样本量特别大的时候，首选随机梯度下降法。