第一章、浅谈深度学习——强化学习笔记

至尊皇堡

已于 2022-04-09 20:52:22 修改

阅读量684

点赞数

分类专栏：人工智能文章标签：机器学习深度学习

于 2022-04-09 19:35:08 首次发布

本文链接：https://blog.csdn.net/Bala_lala/article/details/123831371

版权

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第一章、浅谈深度学习

主要内容为题主在学习飞桨的课程时的笔记。

文章目录

第一章、浅谈深度学习
一、机器学习概述
- 1.1 什么是机器学习
- 1.2 机器要怎么学习
二、深度学习

一、机器学习概述

1.1 什么是机器学习

机器学习-machine learning，顾名思义，就是让机器开始学习。什么样的机器，机器学哪些内容，机器要怎么学习，机器学了东西可以来干嘛，这是我们要讨论的问题。简单来说，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。
什么样的机器？ 这里的机器就是指的计算机，在强化学习中可以称作智能体(agent)。这个机器拥有学习的能力，可以通过数据的累积和分析来做进一步的预测处理。
机器要学哪些内容？ 机器要学的内容就是各种数据，这些数据可以是边经历边积累的，可以是提前输入的。
机器要怎么学习？ 机器学习在学习方式上分为有监督学习和无监督学习以及强化学习。

1.2 机器要怎么学习

下面对各种方法进行介绍：
在这里插入图片描述
里面的概念有些抽象，现在举一个现实点的例子。
毕竟是人工智能，我们可以把机器类比为一个刚出生的小孩。那么有监督学习就是有父母的陪伴。
父母会给你介绍你身边的东西，当你有了许多的数据信息时，你可以对他们分析，并将它们分类为可以吃的，和不可以吃的。当一个新物体出现时，你可以用之前父母讲的对他们进行分析，并归入到你分的类中。
而回归则是要你对这些物品进行打分，与分类不同的是，分类得到的结果是离散的数值，回归得到的是连续的树枝或者范围。
监督式学习需要使用有输入和预期输出标记的数据集。
而无监督学习就是没有父母的情况下进行学习。好奇的小孩会尝试着吃身边的任何一个物品。他在品尝一个东西时会得到各种信息：“甜的”、“软的”、“辣的”、“脆的”，在得到一些复杂的信息后，他要对这些信息进行降维，去除一些无关紧要的因素，得到关键特征变量，如“好吃”、“不好吃”。
聚类则跟分类类似，都是将样本划分到不同分组。当然两者的前提不同，一个是有监督一个是无监督。
非监督式学习是利用既不分类也不标记的信息进行机器学习，并允许算法在没有指导的情况下对这些信息进行操作。
强化学习则像小孩讨好父母一样。当他听话时，父母奖励他糖吃，当他调皮时，父母会惩罚他。为了获得更多的糖，小孩会不断地学习和讨好父母，并会预测自己的行为会不会使父母生气，会不会得到糖，从而获得更多的糖。

二、深度学习

2.1 什么是深度学习

深度学习是一种机器学习方法，它允许我们训练人工智能来预测输出，给定一组输入(指传入或传出计算机的信息)。监督学习和非监督学习都可以用来训练人工智能

2.2 深度学习是如何工作的

2.2.1 神经网络

神经网络这个词来源于系统架构设计背后的灵感——模仿生物大脑自身神经网络的基本结构。神经网络由多个神经元组成。
神经元被分为三个不同的层次：

输入层——接受输入数据。
隐藏层——对输入数据进行数学计算。
输出层——为程序产生给定的输出。

神经元之间的每个连接都有一个权重，这个权重表示输入值的重要性。如天气预测系统中，日期的影响较为重要，因此日期的连接有较大的权重。

2.2.2 改进神经网络

为了提高AI的精度，预测结果需要与历史结果进行比较。因此需要两个因素：计算能力、数据。如预测天气时，需要有大量的历史数据集，同时需要有超强的计算能力进行计算。
一旦遍历了整个数据集，就有可能创建一个函数来衡量AI与实际输出的差距，这个函数叫做成本函数。
即成本函数是一个衡量模型准确率的指标，衡量一句为此模型估计X与Y间关系的能力。
当成本函数等于0时（输出结果与实际输出相同），就达到了我们的最终目标。

2.3 梯度下降

2.3.1 什么是梯度下降

梯度下降是降低成本函数的有效方式。它是一种求函数最小值的方法。在这种情况下，目标是取得成本函数的最小值。它通过每次数据集迭代之后优化模型的权重来训练模型。通过计算某一权重集下代价函数的梯度，可以看出最小值的梯度方向。
梯度衡量得是，如果你稍微改变一下输入值，函数的输出值会发生多大的变化。
在这里插入图片描述

可以结合这篇文章来学习：梯度下降
为了介绍梯度下降我们举一个例子：
现在我们站在某个山峰的峰顶，怎么最快的到达山峰的最低点。
最快的方式是以当前位置为基准，不断地寻找该位置最陡峭的地方，然后沿着该放下往下走，走一段再重复以当前位置为基准，重新寻找最陡峭的地方，一直重复最终可以达到最低点。

但在下山的途中会遇到一些问题：如何测量山峰的陡峭程度，如何确定步长。
可以看出为了确定步长的合适值和使陡峭程度收敛（到达山底），我们需要大量的计算和数据。

2.3.2 梯度下降分类

通常有两种梯度下降的方法：随机梯度下降、批量梯度下降。
随机梯度下降是指：每次只使用单个训练样本来更新，一次遍历训练集，而不是在一次更新中考虑所有的样本。
批量梯度下降是指：每次更新都遍历所有的样本。
可想而知，当训练样本数很大时，批量的方法每次更新都是很大的消耗。所以随机梯度就体现了它的优点——快。但是他只能将梯度保持在接近最小值的地方。