《吴恩达机器学习》学习笔记(第一周)

学习笔记(第一周)

《吴恩达机器学习》

1.1机器学习的应用

        第一节课程主要介绍机器学习当前的应用领域,并且列举了应用实例:

        1. **推荐系统**:例如,Netflix和Amazon使用机器学习算法来推荐电影或产品。

        2. **自动驾驶**:例如,Tesla和Waymo使用机器学习来理解环境并做出驾驶决策。

        3. **医疗诊断**:例如,Google的DeepMind使用机器学习进行眼病诊断。

        4. **语音识别**:例如,Apple的Siri和Amazon的Alexa使用机器学习来理解和响应语音命令。

        5. **图像识别**:例如,Facebook使用机器学习进行面部识别。

        6. **自然语言处理**:例如,OpenAI的GPT-3使用机器学习进行文本生成和理解。

        7. **欺诈检测**:例如,银行和信用卡公司使用机器学习来检测异常交易。

        8. **股票市场预测**:例如,投资公司使用机器学习来预测股价走势。

        9. **广告定向**:例如,Google AdSense使用机器学习来定向投放广告。

        10. **游戏**:例如,DeepMind的AlphaGo使用机器学习打败了世界围棋冠军。

        总结:机器学习已经广泛应用在各个领域,从提供个性化推荐,到驾驶汽车,再到医疗诊断和语音识别,它正在改变我们的生活。机器学习不仅能处理大量数据,还能从中学习和提取有价值的信息,帮助我们做出更好的决策。随着技术的发展,机器学习的应用将更加广泛,其潜力无穷。

 2.1 什么是机器学习

机器学习是人工智能的一个重要分支,其核心是让计算机系统从数据中学习并改进。在这个过程中,不需要进行显式编程,而是通过算法让机器自我学习和提升。机器学习算法通常可以分为三种类型:监督学习、无监督学习和强化学习

**监督学习**是最常见的机器学习类型。在监督学习中,我们使用标记过的训练数据(即,每个样本都有对应的输出或标签)来训练模型。通过学习输入和输出之间的关系,模型可以预测新的、未标记的数据。常见的监督学习任务包括分类(如猫狗图片分类)和回归(如房价预测)。

**无监督学习**不依赖于标记过的训练数据,而是通过识别输入数据的内在结构和模式来学习。这种类型的学习可以用于聚类(如客户细分)、异常检测(如欺诈检测)和降维(如主成分分析)等任务。

**强化学习**是一种通过与环境的交互来学习的机器学习方法。在这种设置中,智能体(agent)会根据其当前状态和可能的行动来选择最佳的行动,以便获得最大的长期奖励。强化学习已经在游戏(如AlphaGo)、机器人技术和自动驾驶等领域取得了显著的成果。

机器学习的主要目标是通过学习和理解数据的模式和结构,对新的、未知的数据做出有效的预测或决策。为了实现这一目标,它依赖于统计学、概率论、计算理论、优化理论和其他相关领域的理论和方法。

机器学习的应用非常广泛,包括但不限于自然语言处理、计算机视觉、音频和语音处理、社交网络分析、医疗诊断、金融市场分析等。随着大数据的发展和计算能力的提升,机器学习的潜力正在被越来越多的领域所发掘和利用。

总的来说,机器学习是一种强大的工具,它能够从数据中学习和提取有价值的信息,帮助我们理解世界并做出更好的决策。然而,与此同时,我们也需要注意到机器学习的挑战和限制,比如过拟合、欠拟合、数据偏差、模型解释性等问题,这些都需要我们在实践中认真对待和解决。

 2.2 监督学习

 目前为止,由神经网络模型创造的价值基本上都是基于监督式学习(Supervised Learning)的。

监督式学习与非监督式学习本质区别就是是否已知训练样本的输出y。

在实际应用中,机器学习解决的大部分问题都属于监督式学习,神经网络模型也大都属于监督式学习。

下面是几个监督式学习在神经网络中应用的例子。

首先,第一个例子是房屋价格预测,这也是第一章的引例。根据训练样本的输入x和输出y,训练神经网络模型,预测房价。

第二个例子是线上广告,这是深度学习最广泛、最赚钱的应用之一。其中,输入x是广告和用户个人信息,输出y是用户是否对广告进行点击。神经网络模型经过训练,能够根据广告类型和用户信息对用户的点击行为进行预测,从而向用户提供用户自己可能感兴趣的广告。

第三个例子是机器视觉(computer vision)。机器视觉是近些年来越来越火的课题,而机器视觉发展迅速的原因很大程度上是得益于深度学习。其中,输入x是图片像素值,输出是图片所属的不同类别。

第四个例子是语音识别(speech recognition)。深度学习可以将一段语音信号辨识为相应的文字信息。

第五个例子是智能翻译,例如通过神经网络输入英文,然后直接输出中文。

至此,神经网络配合监督式学习,其应用是非常广泛的。

结论

神经网络模型主要利用监督式学习产生价值,其核心在于已知训练样本的输入和输出。实际应用中,神经网络模型主要解决的是监督式学习的问题。例如,房屋价格预测模型通过训练样本学习并预测房价;线上广告模型利用用户信息和广告类型预测用户点击行为;机器视觉通过图片像素值输入,输出图片类别;语音识别模型将语音信号转化为文字信息;智能翻译模型可以将一种语言的输入转化为另一种语言的输出。因此,神经网络配合监督式学习在各领域有广泛应用。

3.1神经网络基础之逻辑回归

3.1.1 二分类

① 我们知道逻辑回归模型一般用来解决二分类(Binary Classification)问题。

② 二分类就是输出y只有{0,1}两个离散值(也有{-1,1}的情况)。

③ 我们以一个图像识别问题为例,判断图片中是否有猫存在,0代表noncat,1代表cat。

④ 主要是通过这个例子简要介绍神经网络模型中一些标准化的、有效率的处理方法和notations。

① 如上图所示,这是一个典型的二分类问题。

② 一般来说,彩色图片包含RGB三个通道。例如该cat图片的尺寸为(64,64,3)。

③ 在神经网络模型中,我们首先要将图片输入x(维度是(64,64,3))转化为一维的特征向量(feature vector)。

④ 方法是每个通道一行一行取,再连接起来。

⑤ 由于64x64x3=12288,则转化后的输入特征向量维度为(12288,1)。此特征向量X是列向量,维度一般记为𝑛𝑥𝑛𝑥。

① 如果训练样本共有m张图片,那么整个训练样本X组成了矩阵,维度是(𝑛𝑥𝑛𝑥,m)。注意,这里矩阵X的行𝑛𝑥𝑛𝑥代表了每个样本x(i)特征个数,列m代表了样本个数。

② 这里,Andrew解释了X的维度之所以是(𝑛𝑥𝑛𝑥,m)而不是(m,𝑛𝑥𝑛𝑥)的原因是为了之后矩阵运算的方便。算是Andrew给我们的一个小小的经验吧。

③ 而所有训练样本的输出Y也组成了一维的行向量,写成矩阵的形式后,它的维度就是(1,m)。

3.1.2 逻辑回归预测值

① 接下来我们就来介绍如何使用逻辑回归来解决二分类问题。

② 逻辑回归中,预测值h^=P(y=1 | x)表示为1的概率,取值范围在[0,1]之间。

③ 这是其与二分类模型不同的地方。逻辑回归的预测值为一个连续的概率。

④ 使用线性模型,引入参数w和b。权重w的维度是(𝑛𝑥𝑛𝑥,1),b是一个常数项。这样,逻辑回归的线性预测输出可以写成:

① 值得注意的是,很多其它机器学习资料中,可能把常数b当做𝑤0𝑤0处理,并引入𝑥0=1𝑥0=1。

② 这样从维度上来看,x和w都会增加一维。

③ 但在本课程中,为了简化计算和便于理解,Andrew建议还是使用上式这种形式将w和b分开比较好。

① 上式的线性输出区间为整个实数范围,而逻辑回归要求输出范围在[0,1]之间,所以还需要对上式的线性函数输出进行处理。

② 方法是引入Sigmoid函数,让输出限定在[0,1]之间。这样,逻辑回归的预测输出就可以完整写成:

① Sigmoid函数是一种非线性的S型函数,输出被限定在[0,1]之间,通常被用在神经网络中当作激活函数(Activation function)使用。

② Sigmoid函数的表达式和曲线如下所示:

① 从Sigmoid函数曲线可以看出,当z值很大时,函数值趋向于1。

② 当z值很小时,函数值趋向于0。

③ 且当z=0时,函数值为0.5。

④ 还有一点值得注意的是,Sigmoid函数的一阶导数可以用其自身表示:

⑤ 这样,通过Sigmoid函数,就能够将逻辑回归的输出限定在[0,1]之间了。

3.1.3逻辑回归损失函数

① 逻辑回归中,w和b都是未知参数,需要反复训练优化得到。

② 因此,我们需要定义一个cost function,包含了参数w和b。

③ 通过优化cost function,当cost function取值最小时,得到对应的w和b。

① 如何定义所有m个样本的cost function呢?先从单个样本出发,我们希望该样本的预测值y^与真实值越相似越好。

② 我们把单个样本的cost function用Loss function来表示,根据以往经验,使用平方误差(squared error)来衡量,如下所示:

① 但是,对于逻辑回归,我们一般不使用平方误差来作为Loss function。原因是这种Loss function一般是non-convex的。

② non-convex函数在使用梯度下降算法时,容易得到局部最小值(local minumum),即局部最优化。

③ 而我们最优化的目标是计算得到全局最优化(Global optimization)。

④ 因此,我们一般选择的Loss function应该是convex的。

① Loss function的原则和目的就是要衡量预测输出y^与真实样本输出y的接近程度。

② 平方损失其实也可以,只是它是non-convex的,不利于使用梯度下降算法来进行全局优化。

③ 因此,我们可以构建另外一种Loss function,且是convex的,如下所示:

① 我们来分析一下这个Loss function,它是衡量错误大小的,Loss function越小越好。

② y=1,输入特征向量X可以获得它的预测值y^,若它的预测值与1越接近,则损失越小。y=0,同理。

① 因此,这个Loss function能够很好地反映预测输出y^与真实样本输出y的接近程度,越接近的话,其Loss function值越小。而且这个函数是convex的。

② 上面我们只是简要地分析为什么要使用这个Loss function,后面的课程中,我们将详细推导该Loss function是如何得到的。并不是凭空捏造的哦。

① 还要提一点的是,上面介绍的Loss function是针对单个样本的。那对于m个样本,我们定义Cost function,Cost function是m个样本的Loss function的平均值,反映了m个样本的预测输出y^与真实样本输出y的平均接近程度。Cost function可表示为:

② Cost function已经推导出来了,Cost function是关于待求系数w和b的函数。

③ 我们的目标就是迭代计算出最佳的w和b值,最小化Cost function,让Cost function尽可能地接近于零。

④ 其实逻辑回归问题可以看成是一个简单的神经网络,只包含一个神经元。这也是我们这里先介绍逻辑回归的原因。

总结

第一周主要了解了一些机器学习相关的基本概念,比如什么是监督学习,什么是非监督学习,以及机器学习当前的一些主要应用领域,对机器学习有了初步的了解和基本的认识。以及逻辑回归的部分内容。

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值