李宏毅机器学习之Deep Learning简介

最新推荐文章于 2023-12-14 14:21:12 发布

哈哈哈捧场王

最新推荐文章于 2023-12-14 14:21:12 发布

阅读量258

点赞数 1

分类专栏：机器学习&深度学习

本文链接：https://blog.csdn.net/qq_38689352/article/details/114977721

版权

46 篇文章 11 订阅

订阅专栏

一、深度学习的发展趋势

1958：Perceptron（linear model）
1969：Perceptron has limitation
1980：Multi-layer perceptron
- Do not have significant difference from DNN today
1986：Backpropagation
- Usually more than 3 hidden layers is not helpful
1989：1 hidden layer is “good enough”，why deep？
2006：RBM initialization（breakthrough）
2009：GPU
2011：Start to be popular in speech recognition
2012：win ILSVRC image competition感觉机（Perception）非常像我们的逻辑回归（Logistics Regression）只不过没有sigmoid激活函数。09年的GPU发展是很关键的，使用GPU矩阵运算节省了很多时间。

之前我们学习机器学习相关的内容的时候，有三个step，对于deep learning其实也有3个步骤：
- Step1：神经网络（Neural Network）
- Step2：模型评估（Godness of function）
- Step3：选择最优函数（Pick best function）

神经网络（Neural network）里面的节点，类似我们的神经元。神经网络也可以有很多不同的连接方式，这样就会产生不同的结构（structure）在这个神经网络里面，我们有很多逻辑回归函数，其中每个逻辑回归都有自己的权重和自己的偏差，这些权重和偏差就是参数。这些神经元的连接方式是我们手动去设计的。

概念：前馈（feedforward）也可以称为前向，从信号流来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层之间的连接并没有反馈（feedback），即信号没有从后一层又返回到前一层。

当输入0和0时候，得到0.51和0.85，所以一个神经网络如果权重和偏差都知道的话就可以看成一个函数，他的输入是一个向量，对应的输出也是一个向量。不论是做回归模型（linear model）还是逻辑回归（logistics regression）都是定义了一个函数集（function set）。我们可以给上面的结构的参数设置为不同的数，就是不同的函数（function）。这些可能的函数（function）结合起来就是一个函数集（function set）。这个时候你的函数集（function set）是比较大的，是以前的回归模型（linear model）等没有办法包含的函数（function），所以说深度学习（Deep Learning）能表达出以前所不能表达的情况。
全连接和前馈的理解
- 输入层（Input Layer）：1层
- 隐藏层（Hidden Layer）：N层
- 输出层（Output Layer）：1层
- 全连接：因为layer1和layer2之间两两都有连接，所以叫做Fully Connect；
- 前馈：因为现在传递的方向是由后往前，所以叫做Feedforward。

矩阵计算：随着层数变多，错误率降低，随之运算量增大，通常都是超过亿万级的计算。对于这样复杂的结构，我们一定不会一个一个的计算，对于亿万级的计算，使用loop循环效率很低。这里我们就引入矩阵计算（Matrix Operation）能使得我们的运算的速度以及效率高很多。
如下图所示，其中sigmoid更一般的来说是激活函数（activation function），现在已经很少用sigmoid来当做激活函数了。

本质：通过隐藏层进行特征转换
把隐藏层通过特征提取来替代原来的特征工程，这样在最后一个隐藏层输出的就是一组新的特征（相当于黑箱操作）而对于输出层，其实就是把前面的隐藏层的输出当作输入（经过特征提取得到的一组最好的特征）然后通过一个多分类器（可以是softmax函数）得到最后的输出y。

示例：手写数字识别
举一个手写数字识别的例子；输入：一个16*16=256维的向量，每个pixel对应一个dimension，有颜色用（ink）用1表示，没有颜色（no ink）用0表示。输出：10个维度，每个维度代表一个数字的置信度，从输出结果来看，每一个维度对应输出一个数字，是数字2的概率为0.7的概率最大。说明这张图片是2的可能性就是最大的

几个问题：
- 多少层？每层有多少神经元？这个问题需要我们尝试加上直觉的方法进行调试。对于有些机器学习相关的问题，我们一般用特征工程来提取特征，但是对于深度学习，我们只需要设计神经网络模型来进行就可以了。对于语音识别和影像识别，深度学习是个好的方法，因为特征工程特区特征并不容易。
- 结构可以自动确定吗？有很多设计方法可以让机器自动找到神经网络的结构的，比如进化人工神经网络（Evolutionary Artigicial Neural Networks）但是这些方法并不是很普及。
- 我们可以设计网络结构吗？可以的，比如CNN卷积神经网络（Convolutional Neural Network）