第一章、浅谈深度学习——强化学习笔记

第一章、浅谈深度学习

主要内容为题主在学习飞桨的课程时的笔记。

一、机器学习概述

1.1 什么是机器学习

机器学习-machine learning,顾名思义,就是让机器开始学习。什么样的机器,机器学哪些内容,机器要怎么学习,机器学了东西可以来干嘛,这是我们要讨论的问题。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。
什么样的机器? 这里的机器就是指的计算机,在强化学习中可以称作智能体(agent)。这个机器拥有学习的能力,可以通过数据的累积和分析来做进一步的预测处理。
机器要学哪些内容? 机器要学的内容就是各种数据,这些数据可以是边经历边积累的,可以是提前输入的。
机器要怎么学习? 机器学习在学习方式上分为有监督学习和无监督学习以及强化学习。

1.2 机器要怎么学习

下面对各种方法进行介绍:
在这里插入图片描述
  里面的概念有些抽象,现在举一个现实点的例子。
  毕竟是人工智能,我们可以把机器类比为一个刚出生的小孩。那么有监督学习就是有父母的陪伴。
  父母会给你介绍你身边的东西,当你有了许多的数据信息时,你可以对他们分析,并将它们分类为可以吃的,和不可以吃的。当一个新物体出现时,你可以用之前父母讲的对他们进行分析,并归入到你分的类中。
  而回归则是要你对这些物品进行打分,与分类不同的是,分类得到的结果是离散的数值,回归得到的是连续的树枝或者范围。
  监督式学习需要使用有输入和预期输出标记的数据集。
  而无监督学习就是没有父母的情况下进行学习。好奇的小孩会尝试着吃身边的任何一个物品。他在品尝一个东西时会得到各种信息:“甜的”、“软的”、“辣的”、“脆的”,在得到一些复杂的信息后,他要对这些信息进行降维,去除一些无关紧要的因素,得到关键特征变量,如“好吃”、“不好吃”。
  聚类则跟分类类似,都是将样本划分到不同分组。当然两者的前提不同,一个是有监督一个是无监督。
  非监督式学习是利用既不分类也不标记的信息进行机器学习,并允许算法在没有指导的情况下对这些信息进行操作。
  强化学习则像小孩讨好父母一样。当他听话时,父母奖励他糖吃,当他调皮时,父母会惩罚他。为了获得更多的糖,小孩会不断地学习和讨好父母,并会预测自己的行为会不会使父母生气,会不会得到糖,从而获得更多的糖。

二、深度学习

2.1 什么是深度学习

深度学习是一种机器学习方法 , 它允许我们训练人工智能来预测输出,给定一组输入(指传入或传出计算机的信息)。监督学习和非监督学习都可以用来训练人工智能

2.2 深度学习是如何工作的

2.2.1 神经网络

神经网络这个词来源于系统架构设计背后的灵感——模仿生物大脑自身神经网络的基本结构。神经网络由多个神经元组成。
神经元被分为三个不同的层次:

  • 输入层——接受输入数据。
  • 隐藏层——对输入数据进行数学计算。
  • 输出层——为程序产生给定的输出。

神经元之间的每个连接都有一个权重,这个权重表示输入值的重要性。如天气预测系统中,日期的影响较为重要,因此日期的连接有较大的权重。

2.2.2 改进神经网络

为了提高AI的精度,预测结果需要与历史结果进行比较。因此需要两个因素:计算能力、数据。如预测天气时,需要有大量的历史数据集,同时需要有超强的计算能力进行计算。
一旦遍历了整个数据集,就有可能创建一个函数来衡量AI与实际输出的差距,这个函数叫做成本函数。
即成本函数是一个衡量模型准确率的指标,衡量一句为此模型估计X与Y间关系的能力。
当成本函数等于0时(输出结果与实际输出相同),就达到了我们的最终目标。

2.3 梯度下降

2.3.1 什么是梯度下降

梯度下降是降低成本函数的有效方式。它是一种求函数最小值的方法。在这种情况下,目标是取得成本函数的最小值。 它通过每次数据集迭代之后优化模型的权重来训练模型。通过计算某一权重集下代价函数的梯度,可以看出最小值的梯度方向。
梯度衡量得是,如果你稍微改变一下输入值,函数的输出值会发生多大的变化。
在这里插入图片描述

可以结合这篇文章来学习:梯度下降
为了介绍梯度下降我们举一个例子:
现在我们站在某个山峰的峰顶,怎么最快的到达山峰的最低点。
最快的方式是以当前位置为基准,不断地寻找该位置最陡峭的地方,然后沿着该放下往下走,走一段再重复以当前位置为基准,重新寻找最陡峭的地方,一直重复最终可以达到最低点。

但在下山的途中会遇到一些问题:如何测量山峰的陡峭程度,如何确定步长。
可以看出为了确定步长的合适值和使陡峭程度收敛(到达山底),我们需要大量的计算和数据。

2.3.2 梯度下降分类

通常有两种梯度下降的方法:随机梯度下降批量梯度下降
随机梯度下降是指:每次只使用单个训练样本来更新,一次遍历训练集,而不是在一次更新中考虑所有的样本。
批量梯度下降是指:每次更新都遍历所有的样本。
可想而知,当训练样本数很大时,批量的方法每次更新都是很大的消耗。所以随机梯度就体现了它的优点——快。但是他只能将梯度保持在接近最小值的地方。

2.3.3 实际操作

所以在实际操作中,我们一般不会使用固定的学习率,而是让它随着算法的运行逐渐减小到0,也就是说刚开始大步走,在接近“山底”时慢慢减小下降的“步幅”,换成“小步走”,这样就能更快的收敛于全局最小值而不是围着它振荡。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值