NatureDeepReview 读后笔记

整体框架:

原文来源

第一章:引言

  1. 重点段落1:在这里插入图片描述
    先给了一个定义:深度学习方法是有着多级表示的表述学习方法,通过组合每个简单但是非线性的模型获得,能从一个等级转换成更高更抽象的级别。有了足够多的转换,就可以学习到更加复杂的函数。

    接下来举了一个图像分类的例子,机器可以获取到图像的每一个像素点,那么就可以学习到图像的特征点,可以联想到手写数字识别的一个demo,运用到cnn的卷积神经网络去对图像的层级进行检测和分析,学习不同区域的一个特征,当检测到敏感处,会输出一个答案值,以达到数字识别的效果。

2.重点段落2在这里插入图片描述
因为在高维数据空间的复杂结构 ,所以会以适用于科学,商业、政府等很多领域。

事实上,deep learning 的应用已经渗透了各行各业,如传统行业的机器视觉检测产品,一些物流机器人,以及新兴的医药基因分析所用到的技术领域,大佬的见解总是那么的独到。

  1. 重点段落3: 在这里插入图片描述
    可能更让人惊讶的是,深度学习在自然语言理解领域中的很多场景已经产生很有希望的结果,特别是一些对话分类,语句分析,问题回答以及文本翻译。
    就像我之前做过的一个毕设项目,是做一个chatterbot,使用的LSTM 的模型和attention机制,形成了一个生成式的聊天机器人,通过一些训练以及模型的搭建,我慢慢的理解,机器是可以通过我们喂的数据慢慢理解出词之间的关系,也就是所谓的word2vec 可以将词映射到不同的空间去,并且意思相近的词之间的距离较近,相比之前的one-hot模型有更大的优势。

第二章:监督学习

  1. 重点段落1: 在这里插入图片描述
    我们计算一个目标函数目的是计算其输出的结果和期望的结果之间的误差(距离)。之后机器就会调节内部参数去减小这个误差,这些可以调节的参数,通常称之为权重,而实数可以被看做是一个门把手,定义输入输出函数的一个机器。在一个特定的深度学习系统中,可能会有成千上亿计的可调节参数,也会有上亿计的分类样本来训练这个机器。

这段话简明扼要的描述了机器学习的工作流程,通过对一个已有答案的数据样本进行学习、训练,下面的一段话又引出了SGD的作用,stochastic gradient descent 随机梯度下降,通过不停的更新权重可以得到一个最优解,但是我们都知道随机梯度下降得到的在很多时候只能得到一个局部最优解,而并非全局最优解。
2. 重点段落2: 在这里插入图片描述
在训练完后,该系统被一个完全不同于训练集的测试集所测试,这样的测试体现了该模型的泛化能力,并且检测对一些新的输入数据是否可以有着较好的效果。

但其实在吴恩达的课上,他建议使用使用交叉检测的数据形成测试集去测试该模型的泛化能力。提出了一些机器模型并非仅仅通过亿万的数据就可以形成很好的效果,要从模型是高偏差还是高方差两个角度去判断需要如何对模型进行调整。
3. 重点段落3: 如果说之前讨论都是线性模型形成分离超平面接下来开始讨论非线性
在这里插入图片描述
为了使分类更有力量,一个可以使用非线性的特征,就像核函数。
这种方法是为了着手于设计一个好的特征抽取,需要有大量的工程能力和专业技能。

因此,建造这种模型就是需要大量的工作和学习经验去实践。

  1. 重点段落4:
    在这里插入图片描述

第三章:反向传播去训练多层网络结构

  1. 重点段落1:
    在这里插入图片描述
    主要的理解就是目标函数的梯度遵循输入模型是可以被输出值通过反向传播计算得到的。 这反向传播公式可以被应用于正向传播的各个模型中,从顶部的输出值(就是神经网络的预测值)到达底部的输入值。一旦这些梯度已经被计算,就将直接改变每个模型所代表的权重。

这里主要介绍了一下反向传播,主要的细节还是可以看吴恩达课程对反向传播的理解。接下来又接受了一些非线性的函数,比如ReLU函数,主要是为了防止梯度消散和梯度爆炸。

  1. 重点段落2:
    在这里插入图片描述
    在实际情况中,较差的局部最小值是很少成为大型的网络的问题,尽管初始条件如何,,这个系统通常可以达到一个相似质量的一个解决方案

  2. 重点段落3:
    在这里插入图片描述
    一些较少向下弯曲的方向代表了大多数,但是他们大多数都有着相似的目标函数值,因此,这其中的哪个并不足以让算法陷入困境。

通过预训练几层使之变得更复杂,可以让一些更复杂的特征检测去重建目标函数。

  1. 重点段落4:
    在这里插入图片描述
    这里具体的介绍了该方法应用到了不同的领域并都取得了不错的成绩。

第四章:卷积神经网络

  1. 重点段落1:
    在这里插入图片描述
    一维是信号和序列,包括语言,二维是图像和音频,三维是视频 。这有四个关键点对于有着自然信号优势的CNN来说:本地连接,分享权重,连接池和使用很多层级。

在我学习CNN的时候,我把它理解为一个扫描仪,去扫描白纸上的不同位置的特征,当扫描到感兴趣的时候就会输出一个结果,
不同的位置可以理解为图片上不同的像素点。所以CNN在处理图像识别中有着很关键的作用。

第五章:用CNN理解图像

在这里插入图片描述

  1. 重点段落1:
    在这里插入图片描述
    这段文字不难理解,当从网上收集了有一百万张图片并且有1000种类别的时候,机器可以实现一种出色结果,几乎一半的错误率。这样的成功来自于GPU的使用,以及relu的激活函数使用,一种新的正则化技术我们叫做丢弃率。

  2. 重点段落2:
    在这里插入图片描述
    cnn很容易被使用到一些有效的硬件设备中。在一些公司中使用其并应用到一个视觉设备中,所以我们可以知道使用前景非常广泛。

第六章:分布式表示和语言处理

笔者花了一些笔墨去引入了为何会出现分布式表示,其实也就是我们常说的word2vec 并与 one-hot 模型进行了对比,一张图搞懂两个模型,高见立下。
在这里插入图片描述
one-hot 仅仅是把词从文本空间映射到了向量空间,仅仅有位置的关系,但是与之相关联的文本并没有做出联系。
word2vec则可以将相近语义的文本和单词映射到相近的空间区域。

  1. 重点段落1:
    在这里插入图片描述
    用向量来表示单词现在已经被广泛使用在各个自然语言应用中。
    在神经语言模型出现之前,语言模型的标准方法不是分布式表示,二十基于统计频率的短样本序列 (N-grams)。

这里就涉及到了在神经网络没有出现之前,人们大多数还是使用统计学习的方法去处理语言模型,可能会用到一些贝叶斯最大熵的模型。这些也都在李航老师的《统计学习方法》中有详细的说明。

第七章:循环神经网络和深度学习的未来

  1. 重点段落1:
    在这里插入图片描述
    其实这段话我们就可以把RNN 理解为带有存储功能的传统神经网络,可以保留时间节点的隐藏单元所表示的状态。

至于具体的RNN模型,我觉得还是需要去深入的多多学习。

  1. 重点段落:
    在这里插入图片描述
    笔者对于深度学习所做的预测,其实也是现阶段正在发展和深度研究的事情,虽然是15年写的文章,但是却可以很好的预测之后的走向。比如说现在的强化学习,应用于自动驾驶技术等高新领域中。
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值