机器学习-吴恩达视频课程笔记chapter 1-3

Clustering: Take a collection of 1,000,000 different genes, and find a way to automatically group these genes into groups that are somehow similar or related by different variables, such as lifespan, location, roles, and so on.

Non-clustering: The "Cocktail Party Algorithm", allows you to find structure in a chaotic environment. (i.e. identifying individual voices and music from a mesh of sounds at a cocktail party).

Model Representation

为了建立将来使用的符号，我们将使用 x^(i)

表示“input”变量，也称为input features和y^(i)表示我们试图预测的“产出”或目标变量。一对(x^(i)，y^(i)）称为训练示例，我们将使用它来学习的数据集是m个训练示例的列表{（x^(i)，y^(i）)；i=1。，m} i=1，…，m-称为训练集。注意，符号中的上标“（i）”只是训练集中的一个索引，与求幂无关。我们还将使用X表示输入值的空间，使用Y表示输出值的空间。

Cost Function

我们可以使用损失函数来衡量我们hypothesis function的精度。

此函数也称为“平方误差函数”或者“均方误差” 平均值/2是为了便于计算梯度下降，因为平方函数的导数将会抵消1/2

Gradient Descent

梯度下降，为了找到最优的hypothesis function 的参数。假设h function有两个参数θ0和θ1，那么用梯度下降的方法找到cost function的最低点对应的θ0和θ1的值。

做法就是对cost function求导，找到导数绝对值最大的点，那么我们就有了下降最快的方向，步长为learning rate α，方向由J(θ0,θ1)的偏导数决定，从不同位置开始，会在不同位置结束。

梯度下降的算法为：

重复直到收敛 j=0,1

在每次更新 J 时，需要同时更新参数θ1,θ2,...,θn.

Gradient Descent For Linear Regression

在每一步的训练中都会观察整个训练集中的每一个例子，称为批梯度下降法。

虽然梯度下降通常容易受到局部极小的影响，但我们在这里提出的线性回归优化问题只有一个全局最优，没有其他局部最优；因此，梯度下降总是收敛（假设学习速率α不太大）到全局最小值。实际上，J是一个凸二次函数。这是一个梯度下降的例子，因为它是用来最小化一个二次函数。

上面显示的椭圆

最低0.47元/天解锁文章

是你的汪兄

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-吴恩达视频课程笔记chapter 1-3

Charpter11.机器学习的应用：略2.supervised & unsupervised learningsupervised learning：给一个数据集，并且知道当前输出是什么，输入和输出有一定关系分类：1.解决分类问题（classification）尝试在离散输出中预测结果。换句话说，试图将输入变量映射到离散的类别中。2.解决回归问题（regression）在连续输出中预测结果，试图将输入变量映射到某个连续函数Exampl...
复制链接

扫一扫