深度学习花书 读书笔记
深度学习经典书籍 阅读笔记
liutianheng654
这个作者很懒,什么都没留下…
展开
-
深度学习花书学习笔记 第十六章 深度学习中的结构化概率模型
非结构化建模的挑战主要介绍非结构化对内存要求大,速度慢。而结构化相对好很多。主要例子,a影响b ,b影响c,非结构化的处理的话,还需要处理a影响c的情况,结构化不需要。使用图描述模型结构主要分为有向图和无向图,有向图又叫信念网络或贝叶斯网络。就像前面介绍的那样可以减少很多参数,适用于因果关系。无向图又称马尔科夫随机场(MRF)或马尔科夫网络。这里介绍了配分函数:配置分母的函数,...原创 2018-11-19 21:22:18 · 1264 阅读 · 0 评论 -
深度学习花书学习笔记 第十五章 表示学习
本章的表示学习主要就是通过无监督训练学习特征的意思。这种没有具体的算法,就是介绍表示学习的应用和大概的分支,至于如何进行表示学习,没有详细介绍。感觉可以直接跳过。。贪心逐层无监督预训练贪心算法在无监督训练中的应用,每层只关心当前,进行训练。无监督指低层训练的网络在训练高层时不会改变。后面就是通过实验证明无监督预训练好。。。迁移学习和领域自适应监督学习的应用场景介绍。...原创 2018-11-07 22:00:08 · 1352 阅读 · 0 评论 -
深度学习花书学习笔记 第十四章 自编码器
RBM受限玻尔兹曼机:后面有专门章节介绍。书中这里多次提到,感觉这个书的顺序也很不合理啊,很多这种问题。。。欠完备自编码器编码输出维度小于输入的编码器称为欠完备自编码器,可以得到有效特征。正则自编码器编码输出维度大于等于输入的编码器称为过完备自编码器。可能学不到任何有用信息稀疏自编码器:其中g(h) 是解码器输出,h是编码器输出。即h = f(x)去噪自编码器DAE...原创 2018-10-23 19:29:28 · 1571 阅读 · 0 评论 -
深度学习花书学习笔记 第十三章 线性因子模型
线性因子模型通常用作其他混合模型的组成模块,用于描述数据生成过程。各种线性因子模型的主要区别在先验概率不一样。概率PCA服从高斯先验。独立成分分析不服从高斯先验。其功能类似em算法。用于分离特征。区别?慢特征分析(SFA)源于慢性原则。稀疏编码可以进行特征选择。PCA就像在一个流体上按照最大横截面积切了,然后最长的方向就是主成分,正交的最长的就是次长,类推。具体这张是什么意...原创 2018-10-15 09:39:15 · 1758 阅读 · 5 评论 -
深度学习花书学习笔记 第十二章 应用
大规模深度学习首先深度学习之所以能够在现在获得大的突破,主要依靠于硬件技术的进步和大数据的发展。卷积神经网络需要的高并发,依赖于GPU的发展不断进步,甚至已经有了很多专用设备,如谷歌TPU,阿里和华为也都有最新针对AI算法的芯片。高并发时可能导致梯度下降出问题,目前多采用异步梯度下降。当模型过大时,通常可以通过模型压缩来减少内存和运算时间。(具体方法这里没提)模型可以动态选择运算单...原创 2018-10-12 10:37:12 · 926 阅读 · 0 评论 -
深度学习花书学习笔记 第十一章 实践方法论
性能度量根据任务需求,需要有不同的性能度量方式,常规度量方式如下:_ 真 假 认为真 true positive(TP) false positive(FP) 认为假 false negative(FN) true negative(TN) 准确率:精确率:召回率:PR曲线:F1分数: 覆盖:IoU:R...原创 2018-10-09 18:41:54 · 1037 阅读 · 0 评论 -
深度学习花书学习笔记 第十章 序列建模:循环神经网络
展开计算图就是将循环图展开成展开图而已。循环神经网络 就是如上网络,将某一层不断重复,输出重新作为输入的一部分。双向RNN应用于上下文环境都影响结果的场景,如语音识别,文章翻译等基于编码-解码的序列到序列架构可以将可变长度的输入转变为可变长度的输出。这里也提到了注意力模型。后面了解下自编码网络有没有用到循环神经网络的技术。自编码网络是将一个东西编码后解码再还...原创 2018-10-09 11:44:59 · 1459 阅读 · 0 评论 -
深度学习花书学习笔记 第九章 卷积网络
卷积运算内积和外积中的内积被通常认为时卷积,可交换性是因为他经过了翻转。但是神经网络中一般不应用翻转。而是直接使用互相关函数:动机三大特性:稀疏交互、参数共享、等变表示。稀疏交互:核的大小远小于输入。相对于全连接,一个输入项只影响较少神经元,大大减少运算量。参数共享:也叫绑定权重,每个核的权重不变,遍历整个输入。使我们只需要少量参数,等变表示:卷积网络具有平移等变的...原创 2018-10-06 21:55:53 · 1810 阅读 · 0 评论 -
深度学习花书学习笔记 第八章 深度模型中的优化
学习和纯优化有什么不同我们期望降低的是期望泛化误差,也叫风险。但是我们平时训练时是以训练误差计算,俗称经验风险最小化。可能导致过拟合。训练方式:当原问题较难运算时,可以计算对等问题,使用代理损失函数。但是提前终止算法使用的是真实的损失函数一般。当训练数据过多时,一般每次训练不使用全部样本,而是选取部分批次来训练,大大降低了训练成本,提高训练速度。但是要注意,选取批次样本时,要先...原创 2018-10-01 22:11:26 · 1456 阅读 · 0 评论 -
深度学习花书学习笔记 第七章 深度学习中的正则化
正则化:减少测试误差的策略统称,可能会增加训练误差。参数范数惩罚在目标函数后面添加一项参数惩罚项,参数越多越复杂,则惩罚越大。根据对参数的惩罚方式不一样,分为以下几种:正则化:,也被称为岭(Ridge)回归。书上是上述公式,但是不知道右下角那个2什么意思,好像有问题呀。但实际意义就是权值向量各元素平方和再求平方根。用于防止过拟合。主要用于权重衰减。原理即通过添加正则项,...原创 2018-09-30 21:38:24 · 1655 阅读 · 1 评论 -
深度学习花书学习笔记 第六章 深度前馈网络
深度前馈网络又称多层感知机、前馈神经网络。即只有从x向y方向的传播,最终输出y。主要包括输入层、隐藏层和输出层。神经网络的模型可以解决非线性问题。计算网络的参数通过反向传播;如果每一层隐藏层都只有wx+b的运算,则多层累加变为w1*(w2*(w3*x))+a = W*x +a,失去了非线性能力。故每一层后面会加上一个激活层。实例:学习XOR单个线性函数无法解决XOR的问题,但是多个...原创 2018-09-28 16:50:21 · 2541 阅读 · 2 评论 -
深度学习花书学习笔记 第五章 机器学习基础
学习算法:主要应用于:分类:输出对应的类。输入缺失分类:数据不完整,通过机器学习方式补全,主要用GAN回归:输出输入对应的值。转录:转录非结构化数据为离散数据。机器翻译:序列对序列的转换。结构化输出、异常检测、合成和采样、去噪等等。 性能度量:准确率表示输出正确结果的样本比率。错误率表示输出错误样本的样本比率。。。。填补roc,auc之类如果后面几章...原创 2018-09-27 10:28:09 · 1817 阅读 · 0 评论 -
深度学习花书学习笔记 第四章 数值计算
上溢和下溢:由于舍入带来的误差,导致参数为0或者无穷大,使得无法运算。这个一般会通过加上一些项使得分母不为0来解决。通常基础库都已经帮我们解决了,自己做的时候要注意。病态条件:输入的轻微变动导致输出的大幅变换。基于梯度的优化方法:目标函数=准则误差函数=代价函数=损失函数梯度下降:向导数的反方向移动一步来减小f(x)。驻点:导数为0的点。鞍点:导数为0但是不是极...原创 2018-09-25 11:46:12 · 764 阅读 · 0 评论 -
深度学习花书学习笔记 第三章 概率和信息论
概率分布离散型变量对应概率质量函数(PMF):P。 ~表示遵从分布:x~P(x)联合概率分布,多个变量的分布。P(x,y)P的定义域为x所有可能,且P(x)位于0到1之间,且所有P(x)之和为1。连续型变量对应概率密度函数(PDF)。此时P(x)可以大于1 。边缘概率分布:知道联合概率分布后求子集的分布。 离散型: 连续型:条件概率:主要公式:...原创 2018-09-25 07:48:53 · 639 阅读 · 0 评论 -
深度学习花书学习笔记 第二章 线性代数
之前的没坚持下来,再来一个系列。。再把之前的继续标量、向量、矩阵和张量:标量:单独的数向量:有序排列的一组数矩阵:二维数组张量:多维数组转置:矩阵操作,对角线镜像矩阵和向量相乘:矩阵乘法:不满足交换律。单位矩阵和逆矩阵:单位矩阵:任意矩阵和单位矩阵相乘不变,单位矩阵除对角线为1,其余全为0逆矩阵: A`-1*A =I 矩阵可逆的条件:方阵且所有列...原创 2018-09-21 15:06:23 · 896 阅读 · 1 评论