《深度学习》学习-Bengio
文章平均质量分 64
鸟恋旧林XD
无限风光在险峰
展开
-
1.0 深度学习面目初窥
2017年4月,花了一个多月时间,学习了斯坦福大学李菲菲老师的 CS231n 课程(Convolutional Neural Networks for Visual Recognition),主要是通过研究课程笔记,对这几个问题有了认识: DL 如何用于视觉处理、 DL 的核心概念-最优化-BP、 CNN 的设计与实现、 DL 实践中遇到的一些问题-调参等。本书被誉为 DL 之圣经书,可以来系...原创 2018-03-25 12:51:26 · 536 阅读 · 0 评论 -
9. 深度学习实践:卷积网络(续)
接上节叙述:9. 深度学习实践:卷积网络6. 结构化输出CNN可用于输出高维的结构化对象,不仅仅是预测分类任务的类标签,或者回归任务的实数值。通常该对象是一个张量,由标准卷积层产生。例如,模型可产生张量SS,其中Si,j,kS_{i,j,k}是网络的输入像素(j,k)(j,k)属于类ii的概率。这允许模型标记图中的每个像素。对图像逐像素标记的一种策略:先产生图像标签的原始猜测,然后使用相邻像素间的交原创 2018-01-19 11:45:15 · 627 阅读 · 0 评论 -
9. 深度学习实践:卷积网络
卷积神经网络,Convolutional Neural Network,CNN卷积网络:至少在网络的一层中使用了卷积运算来替代一般的矩阵乘法运算的NN。1. 卷积运算用计算机处理数据时,时间会被离散化,则为求和形式:s(t)=(x∗w)(t)=∑∞a=−∞x(a)w(t−a)s(t)=(x*w)(t)=\sum_{a=-\infty}^{\infty}x(a)w(t-a)xx通常是多维数组的输入。w原创 2018-01-19 10:24:32 · 1966 阅读 · 0 评论 -
6. 深度学习实践:深度前馈网络
前馈神经网络:为了实现统计泛化而设计出的函数近似机。它偶尔从大脑中提取灵感,但并不是大脑功能的模型。1. 为什么线性模型(单层感知机)不能解决异或(XOR)问题?左图中,x1=0x_1=0 时,模型的输出必须随着x2x_2 的增大而增大。x1=1x_1=1 时,模型的输出必须随着x2x_2 的增大而减小。线性模型必须对 x2x_2 使用固定系数 w2w_2,因此线性模型不能解决这个问题。解决办法:学原创 2018-01-10 16:17:35 · 916 阅读 · 0 评论 -
12. 深度学习实践:应用篇
尽管深度学习的目标是设计能够处理各种任务的算法,但截至目前,其应用仍需一定程度的特化,我们重点关注CV,语音识别,NLP,以及其他商业领域的应用。1. 大规模深度学习DL基于联结主义,大量神经元作用在一起往往能够表示智能。神经元数量必须很大。相比上个世纪80年代,如今NN的精度和任务复杂度进一步提升,一个关键因素是网络规模的巨大提升。但即便如此,NN的规模也仅和昆虫级别差不多。原创 2018-01-25 16:18:54 · 844 阅读 · 0 评论 -
8. 深度学习实践:优化(续)
接上部分讨论:8. 深度学习实践:优化3. 基本算法3.1 随机梯度下降SGD及其变种很可能是一般ML中应用最多的优化算法。关键参数:学习率。最好的选择方法:监测目标函数值随时间变化的学习曲线。与其科学,更像艺术。实践中有必要随时间逐渐降低学习率。SGD(1998年就有了)、小批量、基于梯度优化的在线学习算法,一个重要性质:每一步更新的计算时间不依赖于训练样本数目的原创 2018-01-17 18:17:54 · 1215 阅读 · 0 评论 -
5. 深度学习基础:机器学习原理与方法(续)
1. 频率派、贝叶斯派点估计,偏差估计,方差估计,一致性。最大似然估计(常用准则)。这些属于频率派统计方法。基于估计单一值θ\theta的方法,然后基于该估计做所有预测。另一种方法是做预测时会考虑所有可能的θ\theta。属于贝叶斯统计范畴。频率派视角:真实参数θ\theta是未知的定值。点估计θ^\hat \theta是基于数据集上任意函数的随机变量。例如,最大似然估计准则:贝叶斯视角:概率反映知原创 2018-01-08 12:06:32 · 624 阅读 · 0 评论 -
11. 深度学习实践:实践方法论
掌握了算法和基本原理,要达到知行合一,还需要一套实践方法论:实践中如何针对应用选择算法,决定是否要收集更多数据等。正确地使用一个算法,比草率使用一个不清楚的算法效果更好。Ng提出了很多好的建议,将在以下体现。建议的实践设计流程:确定目标:误差度量建立end-to-end的工作流程搭建系统,查明性能瓶颈根据观察反复增量式改动,如调整超参数等1. 性能度量度量一个模型完整应用原创 2018-01-24 17:37:50 · 2580 阅读 · 0 评论 -
5. 深度学习基础:机器学习原理与方法
深度学习是机器学习的一个分支。之前整理的机器学习的笔记见点击这个链接。阅读该书第5章后,补充一些小点。1. 容量、过拟合、欠拟合模型的容量:模型拟合各种函数的能力。我们可通过调整模型的容量,来控制模型是否偏向于过拟合或欠拟合。容量低的模型可能很难拟合训练集。容量高的模型,可能造成过拟合,记住了不适用于测试集的训练集性质。如何控制模型容量?一种方法是选择假设空间。如果选了线性回归函数,将原创 2018-01-07 21:12:37 · 1302 阅读 · 0 评论 -
8. 深度学习实践:优化
NN的优化:寻找NN上的一组参数,可显著降低代价函数,该代价函数通常包括整个训练集上的性能评估和额外的正则化项。1. 批量算法和小批量算法和一般优化算法不同,ML算法的目标函数通常可分解为训练样本上的总和。ML中的优化算法在计算参数的每一次更新时,通常仅使用整个代价函数中的一部分项来估计代价函数的期望值。为什么仅仅使用一部分来估计?n个样本均值的标准差是δ/n√\delta/\sq原创 2018-01-16 16:43:41 · 683 阅读 · 0 评论 -
4. 深度学习的数学基础:数值计算
机器学习算法,通常需要大量的数值计算。通常是指通过迭代过程中更新解的估计值来解决数学问题的算法,而非通过解析解之法。原创 2018-01-07 21:08:18 · 564 阅读 · 0 评论 -
3. 深度学习的数学基础:概率论与信息论
AI 领域,概率论主要有两种用途:一是概率法则告诉我们系统如何推理,据此可设计出一些算法来计算或者估算由概率论导出的表达式。二是用概率和统计从理论上分析我们提出的AI系统的行为。信息论帮助我量化概率分布中的不确定性总量。原创 2018-01-07 21:04:02 · 557 阅读 · 0 评论 -
2. 深度学习的数学基础:线性代数
线性代数广泛用于科学和工程中。本书第二章探讨了一些必备的线性代数知识。手写上传为图。原创 2018-01-07 20:44:06 · 458 阅读 · 0 评论 -
10. 深度学习实践:循环神经网络 RNN
循环神经网络(recurrent neural network,RNN)(1986),一类用于处理序列数据的NN。正如卷积网络可很容易地扩展到具有很大宽度和高度的图像,RNN可以很容易扩展到更长的序列、大多数RNN也可处理可变长度的序列。在模型的不同部分共享参数。能够使得模型扩展到不同形式的样本并进行泛化。CNN中如何共享参数已经知道了,本节将看到如何在RNN上应用该思想。1. 计算图原创 2018-01-24 00:32:16 · 3896 阅读 · 0 评论 -
7. 深度学习实践:正则化(续)
接上篇:7. 深度学习实践:正则化7. 参数绑定和参数共享表达对模型参数的先验知识:经常想要表达的一种常见依赖是某些参数应当彼此接近。例如,两个模型执行相同的分类任务,但输入分布稍有不同,因此我们认为模型参数应彼此靠近。可通过正则化利用这个信息,具体的例如,参数范围惩罚为Ω(w(A)−w(B))=||w(A)−w(B)||22\Omega(w^{(A)}-w^{(B)})=||w^{(原创 2018-01-15 11:52:35 · 535 阅读 · 0 评论 -
6. 深度学习实践:深度前馈网络(续)
接上篇:6. 深度学习实践:深度前馈网络5. 架构设计5.1 深度万能近似定理:一个FNN如果具有线性输出层和至少一层具有任何一种挤压性质的激活函数的隐藏层,只要给予网络足够数量的隐藏单元,它能够以任意精度来近似任何从一个有限维空间到另一个有限维空间的Borel可测函数。该定理意味着:无论我们试图学习什么函数,一个大的MLP一定能够表示这个函数。很完美,是不是?但是,我们不原创 2018-01-11 18:14:31 · 500 阅读 · 0 评论 -
7. 深度学习实践:正则化
正则化:ML中的一种策略,可减少测试误差,提高模型泛化能力。开发更有效的正则化策略:深度学习领域主要研究工作之一。模型族训练的三个过程:不包括真实的数据生成过程,欠拟合和含有偏差。匹配真实数据生成过程除了2中,还包括许多其他可能的生成过程,方差主导的过拟合正则化的目标:使得模型从第3种转化为第2种。1. 参数范数惩罚1.1 L2L^2参数正则化权重衰减。原创 2018-01-15 11:52:04 · 1161 阅读 · 0 评论 -
1.1 深度学习的历史和发展
深度学习并不是近年来出现的新事物。就像《现代操作系统》作者讲的一句话:计算机领域总是出现周而复始的现象。很多概念几十年前就有了,因为某种因素消沉下去,但后面可能又被拎出来。之所以让人感觉其是全新领域,乃是因为前几年相对冷门。软件学院90年代求学的一个师兄讲:他毕业那会论文大凡扯上BP神经网络,都很好过,因为这是学术研究热点。可见,当时就已经有一波热潮了。1. 人工神经网络该领域最早的学习算法,旨在模原创 2017-12-26 10:43:41 · 891 阅读 · 0 评论 -
神经网络的利用率和
1. 神经网络的利用率当一个CNN网络做forward时,对于硬件资源的利用情况,称之为利用率。如何计算利用率?计算网络的计算量,通常是乘累加的次数测量网络运行耗时乘累加次数除以耗时, 计算该网络的GFLOPS用计算的网络GFLOPS除以硬件资源的理论GFLOPS,即利用率2. GFLOPS全称:float operations per second,每秒可做浮点操作的数量。用...原创 2018-11-14 20:36:16 · 2829 阅读 · 0 评论