机器学习-吴恩达视频课程笔记chapter 1-3

这篇博客整理了吴恩达机器学习课程中前三章的内容,包括监督学习与无监督学习的区别,模型表示、成本函数、梯度下降及其在线性回归中的应用。此外,介绍了多元线性回归、多项式回归和正规方程。在逻辑回归部分,讲解了分类、讨论边界、成本函数和正则化等内容,以解决过拟合问题。
摘要由CSDN通过智能技术生成

目录

 

Charpter1 

supervised & unsupervised  learning

supervised learning:

Unsupervised learning:

Model Representation

Cost Function

Gradient Descent

Gradient Descent For Linear Regression

Linear Algebra Review

Chapter2

Multivariate linear regression

Gradient Descent For Multiple Variables

Gradient Descent in Practice I - Feature Scaling

Gradient Descent in Practice II - Learning Rate

Features and Polynomial Regression(特征与多项式回归)

Normal Equation

Normal Equation Noninvertibility

Programing Exercise 1 Linear Regression

Chapter3 Logistic Regression

classification and representation

Hypothesis Representation

Discission Boundary

Logistic Regression Model

Cost Function

Simplified Cost Function and Gradient Descent

Advanced Optimization

Multiclass Classification

Multiclass Classification: One-vs-all

​Solving the Problem of Overfitting

The Problem of Overfitting

Cost Function

Regularized Linear Regression

Normal Equation

Regularized Logistic Regression

Programing Exercise 2 Logistic Regression


Charpter1 

supervised & unsupervised  learning

supervised learning:

给一个数据集,并且知道当前输出是什么,输入和输出有一定关系

分类:

1.解决分类问题(classification)

尝试在离散输出中预测结果。换句话说,试图将输入变量映射到离散的类别中。

2.解决回归问题(regression)

在连续输出中预测结果,试图将输入变量映射到某个连续函数

 

Examples:

(a) Regression - Given a picture of a person, we have to predict their age on the basis of the given picture

(b) Classification - Given a patient with a tumor, we have to predict whether the tumor is malignant or benign.

 

Unsupervised learning:

无监督学习使我们能够在几乎不知道结果应该是什么样子的情况下解决问题。我们可以从不一定知道变量影响的数据中得出结构。

我们可以根据数据中变量之间的关系对数据进行聚类,从而得出这种结构。

在无监督学习的情况下,没有基于预测结果的反馈。

 

Example:

Clustering: Take a collection of 1,000,000 different genes, and find a way to automatically group these genes into groups that are somehow similar or related by different variables, such as lifespan, location, roles, and so on.

Non-clustering: The "Cocktail Party Algorithm", allows you to find structure in a chaotic environment. (i.e. identifying individual voices and music from a mesh of sounds at a cocktail party).

 

Model Representation

为了建立将来使用的符号,我们将使用 x^(i)

表示“input”变量,也称为input features和y^(i)表示我们试图预测的“产出”或目标变量。一对(x^(i),y^(i))称为训练示例,我们将使用它来学习的数据集是m个训练示例的列表{(x^(i),y^(i));i=1。,m} i=1,…,m-称为训练集。注意,符号中的上标“(i)”只是训练集中的一个索引,与求幂无关。我们还将使用X表示输入值的空间,使用Y表示输出值的空间。

 

Cost Function

我们可以使用损失函数来衡量我们hypothesis function的精度。

此函数也称为“平方误差函数”或者“均方误差” 平均值/2是为了便于计算梯度下降,因为平方函数的导数将会抵消1/2

 

Gradient Descent

梯度下降,为了找到最优的hypothesis function 的参数。 假设h function有两个参数θ0和θ1,那么用梯度下降的方法找到cost function的最低点对应的​θ0和θ1的值。

做法就是对cost function求导,找到导数绝对值最大的点,那么我们就有了下降最快的方向,步长为learning rate α,方向由J(θ0​,θ1​)的偏导数决定,从不同位置开始,会在不同位置结束。

梯度下降的算法为:

重复直到收敛        j=0,1

在每次更新 J 时,需要同时更新参数θ1​,θ2,...,θn.

Gradient Descent For Linear Regression

在每一步的训练中都会观察整个训练集中的每一个例子,称为批梯度下降法。

虽然梯度下降通常容易受到局部极小的影响,但我们在这里提出的线性回归优化问题只有一个全局最优,没有其他局部最优;因此,梯度下降总是收敛(假设学习速率α不太大)到全局最小值。实际上,J是一个凸二次函数。这是一个梯度下降的例子,因为它是用来最小化一个二次函数。

上面显示的椭圆

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值