吴恩达机器学习笔记（自己学的过程进行记录）

最新推荐文章于 2024-04-23 20:27:18 发布

xiuyvshu

最新推荐文章于 2024-04-23 20:27:18 发布

阅读量969

点赞数 1

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dagongrenbs/article/details/124151778

版权

吴恩达机器学习笔记（自己学着记）

1. 机器学习分类

1.1 监督学习

1.1.1 回归

回归问题是在知道正确答案的基础上进行的，即给定的数据集是真实的一系列连续的值。计算机通过学习选择适当的模型来模拟这个数据值（比如一次函数或二次函数等）例：房价随面积的变化

在这里插入图片描述 ]
)

1.1.2 分类

分类问题是离散的值，比如非0即1的情况下图是乳腺癌的分类问题，要么恶性要么良性，是离散的

在这里插入图片描述

多维的分类问题

在这里插入图片描述

1.2 无监督学习

1.2.1 聚类

事先不知道正确答案，也不知道要分成多少类

在这里插入图片描述

可以用在新闻的分类上，将类似的新闻放到一个簇中，主要应用场景如下。

在这里插入图片描述

1.2.2 特征提取

鸡尾酒会上从不同的声音提取声音，去除噪声也属于无监督学习

在这里插入图片描述

2. 线性回归模型

2.1 模型简介

还是以房价和尺寸的关系为例，模型一些常见的符号含义

在这里插入图片描述

(x,y)代表一个训练样本, $x^{(i)},y^{(i) })$ 代表第i个训练样本

模型的过程, h称为假设函数。

在这里插入图片描述

2.2 代价函数

2.2.1 定义

假设函数中的 $\theta_0$ 和 $\theta_1$ 被称为参数，参数的合理选择可以使我们的结果更好地收敛，或者说能够更好的预测值。

为了更好地预测，我们的目标就是：
$minimize_{\theta_0,\theta_1}\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}-y^{(i)})^2$
因此我们可以得到代价函数为
$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$
代价函数也被称为平方误差函数，也叫平方误差代价函数

2.2.2 原理及内涵

代价函数的直观上的表达，这里以 $h_\theta(x)=\theta_1x$ 为例

在这里插入图片描述

下面进阶成 $h_\theta(x)=\theta_0+\theta_1x$ 的情况，代价函数成了等高线图

在这里插入图片描述

2.3 梯度下降

2.3.1 含义

给定初始参数 $\theta_0,\theta_1,\cdots,\theta_m$ ，通过不断地改变 $\theta_0,\theta_1,\cdots,\theta_m$ ，使得代价函数不断减少，这就是梯度下降的过程

梯度下降法的公式
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$
梯度下降是同时进行的也就是说：

在这里插入图片描述

2.3.2 注意事项

$\alpha$ 是学习率，太大可能会无法收敛，太小可能收敛缓慢，因此选择一个适当的值很重要。具体如下，从图上可以直观地进行理解：

在这里插入图片描述

当到达局部最优点之后，由于偏导为0，则不会继续变化

2.3.3 线性回归的梯度下降

在这里插入图片描述

上面学到的梯度下降算法被称为“Batch”梯度下降，每一步训练都遍历整个样本。

2.4 多元梯度下降

前面讨论的一元问题，房子的价格仅跟房屋面积有关，现实中应该是跟很多因素有关，下面讨论多元问题的梯度下降

2.4.1 问题描述

在这里插入图片描述

注：以 $x_{j}^{(i)}$ 为例说明，可以简单地理解为 $i$ 代表行， $j$ 代表列例： $x^{(2)}=[1416,3,2,40]^T, x_{3}^{(2)}=2$

这样多元问题可以表示为：
$h_\theta(x)=\theta_0+\theta_1x_1+\cdots+\theta_nx_n$
为了表示方便，取 $x_0=1$

2.4.2 多元梯度下降法

2.4.2.1 定义及基本概念

在这里插入图片描述

接下来给出一元和多元的梯度下降算法的对比

在这里插入图片描述

品红色圈出来的是等效的，because $x_{0}^{(i)}=1$

2.4.2.2 特征缩放

还是以房屋价格为例，面积尺寸假设为0-200平方米，而楼层可能只有1-5层，这时候需要进行特征缩放。原因是当不同特征差距过大时，等高线图可能会过于扁平或过于细窄

缩放方法

使用 $\frac{x_1-\mu_1}{s_1}$ 来代替 $x_1$ ，其中 $\mu_1$ 为训练集中特征 $x_1$ 的平均值， $s_1=max(x_1)-min(x_1)$ ,也就是范围

2.4.2.3 学习率的选取

1.采用自动收敛计算，给一个阈值，当真实值与预测值的差值小于该阈值，即可认为收敛

2.画出图像，直观可视化

选择学习率的时候以三倍进行比较好0.001,0.003,0.01,0.03，…。

2.4.3 特征和多项式回归

以预测房价为例，房屋价格与面积，体积等有关系，可以列为 $h_\theta(x)=\theta_0+\theta_1(size)+\theta_2(size)^2+\theta_3(size)^3$

将多次方转化为一次方线性回归：令 $x_1=(size),x_2=(size)^2,x_3=(size)^3$

则原式化为 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3$

房价预测，一个常见的修改假设函数使得更能模拟真实情况的，就是将平方项改为开根号，因为平方项最后肯定会下降，而房价随着尺寸的增大是不会下降的

2.5 正规方程

正规方程是一种区别于迭代方法的直接解法

式子： $\theta=(X^TX)^{(-1)}X^Ty$

在这里插入图片描述

正规方程法与梯度下降法的优缺点：

正规方程不需要选择学习率也不需要迭代
但是当n变大之后，正规方程的计算不方便

如果不可逆怎么解决？

在这里插入图片描述

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
吴恩达机器学习笔记（自己学的过程进行记录）

吴恩达机器学习笔记（自己学习过程中进行记录），刚入门
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xiuyvshu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。