机器学习笔记（1）常见符号，批次梯度下降，随机梯度下降

最新推荐文章于 2025-04-02 12:01:34 发布

我是嘉心糖

最新推荐文章于 2025-04-02 12:01:34 发布

阅读量555

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43445553/article/details/126324429

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

机器学习

一，常见符号

h(x) = $\sum θ j x j$ 其中·的xj是输入的量，而θ则是线性回归时候的系数，通常x0等于1作为一个虚拟的特征，h是假设的。

$\theta=[\theta_{1},\theta_{2},\theta_{3}]^{T}$

$x=[x_{1},x_{2},x_{3}]^{T}$

$\theta = "parameter"$ theta 是参数。

M = #training examples 训练数目 #代表着数目。

x = “inputs”/feature x是输入，或者有叫特征。

y = “output”/target variable。

$(x, y)$ = training example 训练实例。

$x^{i},y^{i}) = i_{th}$ training example 第i个训练实例。

$x_a^{(b)}$ 表示的是第b个训练实例里面的第a个参数(上标指的是训练实例，下标指的是参数的顺序。

n = #feature n代表的是特征的个数，n=|x|-1，n=x的维度-1，因为x0是一个虚拟的特征，这个虚拟的特征是不算在n里面的。

$h_\theta(x) = h(x)$ 方便书写，假设函数h其实是和θ有关的。

$\nabla_\theta J(\theta)=[\frac{\partial J(\theta)}{\theta_0},\frac{\partial J(\theta)}{\theta_1},\frac{\partial J(\theta)}{\theta_2}]^T$ 这条式子的意思是对成本函数求偏导，并且写成矩阵的形式。

对任意的 $f (A) = t r A B$ （A，B是任意的矩阵，tr指的是迹：主对角线的元素之和， $t r A BC = t r C A B = t r BC A$ 迹的循环排列）

有 $\nabla_\theta f(A) = B^T$ （证明用到 $\nabla_A trAA^TC = CA+C^TA$ ，有点像 $\frac{\partial a^2c}{\partial a} = 2ac$ ）

线性回归(linear regression)里面的目标就是使得

这个式子 $J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^{2}$ 最小化

其中的 $\frac{1}{2}$ 是为了保证等等求导的时候可以减少计算量。

批次梯度下降（收敛，全局最优）（Batch Gradient Descent，BGD）

那最小化这个 $J(\theta)$ 的方法算法是怎么呢，这里就要提到梯度下降算法(gradient descent)

1.将θ设置成一个0向量，作为一个初始值

2.持续更改θ来减少 $J(\theta)$

$\theta_j:=\theta_j-\alpha\frac{\partial }{\partial \theta j}J(\theta)$

将每次的θj更换成右边的式子进行迭代，其中的 $\alpha$ 叫做学习率(learning rate)，右边是J(θ)对θj的偏导数，这一步在一轮中要进行n次，每个特征都要做一次进行最小化。

$\frac{\partial }{\partial \theta j}J(\theta) = \frac{\partial\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^{2}}{\partial \theta_j}$ 对此求偏导数

而 $h_\theta(x) = \sum_{i=0}^{n}\theta_ix_i$

对 $h_\theta(x)$ 求偏导，首先得由于链式法则，平方的那个2要乘上去和1/2抵消，再乘上一个括号一样的东西。

由于是只对 $\theta_i$ 偏导，所以别的项全变成了0，只依赖于对应的θiXi项。

最后第一步的转换就变成了这样了。

$\theta_j:=\theta_j - \alpha\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}$ 后面的那一大坨就是偏导数最后简化的结果了。

3.每一次都往最低的方向走下坡路，也就是沿着梯度最小的方向走babystep

4.梯度下降法的结果，取决于初始的θ值（不同的起点）

5.每次的操作是for(j=1,…,n)进行第3步的操作直到收敛。

6.每次的迭代都是对全局进行的，所以消耗将会非常非常大。

随机梯度下降（Stochastic Gradient Descent，SGD）

永远的震荡，并且不会收敛，但是允许不断变换，得到结果会更快

$\theta_j:=\theta_j - (h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}$

每次迭代的公式是这样的，并没有求和符号，并不是进行全局的

repeat{

$\theta_j:=\theta_j - (h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}$ j从0到n

}i从1到m

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。