2019年09月_纸上得来终觉浅～

转载多GPU训练

TensorFlow可以用单个GPU，加速深度学习模型的训练过程，但要利用更多的GPU或者机器，需要了解如何并行化地训练深度学习模型。常用的并行化深度学习模型训练方式有两种：同步模式和异步模式。下面将介绍这两种模式的工作方式及其优劣。如下图，深度学习模型的训练是一个迭代的过程。在每一轮迭代中，前向传播算法会根据当前参数的取值，计算出在一小部分训练数据上的预测值，然后反向传播算法...

2019-09-29 12:56:09 197

转载注意力模型 attention model

1、Encoder-Decoder框架要了解深度学习中的注意力模型，就不得不先谈Encoder-Decoder框架，因为目前大多数注意力模型附着在Encoder-Decoder框架下，当然，其实注意力模型可以看作一种通用的思想，本身并不依赖于特定框架，这点需要注意。Encoder-Decoder框架可以看作是一种深度学习领域的研究模式，应用场景异常广泛。图2是文本处理领域里常用的Encod...

2019-09-29 12:28:39 406

原创深度学习基础知识

一、基础1、线性回归https://blog.csdn.net/qq_32172681/article/details/980569412、softmax回归https://blog.csdn.net/qq_32172681/article/details/1013536463、多层感知机https://blog.csdn.net/qq_32172681/article/deta...

2019-09-29 11:24:02 84

转载 GRU网络

1、简介随着 LSTM 在自然语言处理特别是文本分类任务的广泛应用，人们逐渐发现 LSTM 具有训练时间长、参数较多、内部计算复杂的缺点。Cho 等人在 2014 年进一步提出了更加简单的、将 LSTM 的单元状态和隐层状态进行合并的、还有一些其他的变动的 GRU 模型。将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态。GRU把LSTM中的遗忘门和输入们用更新门来替...

2019-09-29 11:06:37 8042

转载二阶常系数线性微分方程

1、二阶常系数齐次线性微分方程2、二阶常系数非齐次线性微分方程

2019-09-28 16:27:04 542

转载一阶线性微分方程

1、一阶线性微分方程概念2、一阶线性齐次微分方程解法例题：例题：3、一阶线性非齐次微分方程解法例题：4、伯努利方程例题：...

2019-09-28 16:00:08 52231 1

转载上采样，反卷积，上池化区别

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。通过对一些资料的学习，简单的整理下三种恢复方法，并进行对比。1、Upsampling（上采样）在FCN、U-net等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一...

2019-09-28 14:28:16 599

转载卷积与反卷积

1、卷积上图展示了一个卷积的过程，其中蓝色的图片(4*4)表示的是进行卷积的图片，阴影的图片(3*3)表示的是卷积核，绿色的图片(2*2)表示是进行卷积计算之后的图片。在卷积操作中有几个比较重要的参数，输入图片的尺寸、步长、卷积核的大小、输出图片的尺寸、填充大小。2、卷积参数介绍输入图片的尺寸：上图中的蓝色图片(4*4)，表示的是需要进行卷积操作的图片，在后面的公式中用 ...

2019-09-28 14:08:27 1339

先简单介绍一下VAE，VAE作为一个生成模型，其基本思路是很容易理解的：把一堆真实样本通过编码器网络变换成一个理想的数据分布，然后这个数据分布再传递给一个解码器网络，得到一堆生成样本，生成样本与真实样本足够接近的话，就训练出了一个自编码器模型。那VAE(变分自编码器)就是在自编码器模型上做进一步变分处理，使得编码器的输出结果能对应到目标分布的均值和方差，如下图所示，具体的方法和思想在后文会介绍：...

2019-09-27 13:17:50 2546

转载 KL散度

KL 散度是一种衡量两个概率分布的匹配程度的指标，两个分布差异越大，KL散度越大。定义如下：其中 p(x) 是目标分布，q(x)是去匹配的分布，如果两个分布完全匹配，那么KL 散度又叫相对熵，在信息论中，描述的是q去拟合p的产品的信息损耗。KL 散度是非对称，即 D(p||q) 不一定等于 D(q||p) 。KL 散度经常作为优化的目标。...

2019-09-27 12:55:45 1157

转载常见生成模型 -- 自动编码器 Auto-Encoder

1、Auto-Encoderautoencoder是一种无监督的学习算法，主要用于数据的降维或者特征的抽取。我们希望编码后的数据能够较好的保留原始数据的主要特征。那么，如何衡量编码后的数据是否保留了较完整的信息呢？答案是：如果编码后的数据能够较为容易地通过解码恢复成原始数据，我们则认为较好的保留了数据信息。自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信...

2019-09-26 22:21:27 926

转载深度神经网络加速和压缩

网络加速和压缩技术根据采用的方法不同大概可以分为：Low-Rank Pruning Quantization Knowledge Distillation1、Low-Rank 低秩分解深度网络加速和压缩的第一种方法是Low-Rank低秩分解。由于卷积神经网络中的主要计算量在于卷积计算，而卷积计算本质上是矩阵分析的问题，通过在大学对矩阵分析、高等数学的学习我们知道通过SVD奇异...

2019-09-26 21:04:12 556 1

转载为什么说Relu是非线性激活函数,在大于0部分不是线性的吗?

2019-09-26 15:33:57 1508

转载 Batch Normalization层

BN，全称Batch Normalization，在进行深度网络训练时，大都会采取这种算法。原文链接：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift1、为什么使用归一化首先来说归一化的问题，神经网络训练开始前，都要对数据做一个归一化处理，归一化有很多好...

2019-09-26 13:35:24 307

原创深度学习机器学习面试

http://www.sohu.com/a/229734739_609569

2019-09-26 09:52:48 81

转载 Dropout

1. Dropout简介1.1 Dropout出现的原因在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。过拟合是很多机器学习的通病。如果模型过拟合，那么得到的模型几乎不能用。为了解决过...

2019-09-26 09:51:22 636

转载常用损失函数

一、分类任务loss1、二分类交叉熵损失 sigmoid_cross_entropy2、多分类交叉熵损失 softmax_cross_entropy3、focal lossfocal loss为凯明大神的大作，主要用于解决多分类任务中样本不平衡的现象，可以获得比softmax_cross_entropy更好的分类效果。论文中α=0.25，γ=2效果最好。...

2019-09-26 09:51:14 491

转载权重初始化方法

在深度学习中，神经网络的权重初始化方法对（weight initialization）对模型的收敛速度和性能有着至关重要的影响。说白了，神经网络其实就是对权重参数w的不停迭代更新，以期达到较好的性能。在深度神经网络中，随着层数的增多，我们在梯度下降的过程中，极易出现梯度消失或者梯度爆炸。因此，对权重w的初始化则显得至关重要，一个好的权重初始化虽然不能完全解决梯度消失和梯度爆炸的问题，但是对于处理这...

2019-09-26 09:50:58 2138

转载学习率衰减

一、学习率衰减的概念和必要性学习率过大，在算法优化的前期会加速学习，使得模型更容易接近局部或全局最优解。但是在后期会有较大波动，甚至出现损失函数的值围绕最小值徘徊，波动很大，始终难以达到最优，如下图蓝色曲线所示。所以引入学习率衰减的概念，直白点说，就是在模型训练初期，会使用较大的学习率进行模型优化，随着迭代次数增加，学习率会逐渐进行减小，保证模型在训练后期不会有太大的波动，从而更加接近最优解，...

2019-09-25 20:27:49 937

转载分布式深度学习原理

无监督的特征学习和深度学习已经证明，通过海量的数据来训练大型的模型可以大大提高模型的性能。但是，考虑需要训练的深度网络模型有数百万甚至数十亿个参数需要训练，这其实是一个非常复杂的问题。我们可以很快完成复杂模型的训练，而不用等待几天甚至几个星期的时间呢？Dean等人提出了一个可行的训练方式，使我们能够在多台物理机器上训练和serving一个模型作者提出了两种新的方法来完成这个任务，即模型并行和数...

2019-09-25 20:20:27 352

转载集群、分布式、微服务

1、分布式：一个业务分拆多个子业务，部署在不同的服务器上2、集群：同一个业务，部署在多个服务器上3、微服务：将模块拆分成一个独立的服务单元通过接口来实现数据的交互4、区别：微服务与分布式的细微差别是，微服务的应用不一定是分散在多个服务器上，他也可以是同一个服务器。分布式和微服的架构很相似，只是部署的方式不一样而已。...

2019-09-25 20:07:51 159

转载 L1正则化和L2正则化

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。1、L1正则化和L2正则化定义L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为 L2正则化是指权值向量w中各个元素的平方和然后再求平方根，通常表示为2、L1正则化和L2正则化的作用L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择 L2正则...

2019-09-25 17:55:00 933

转载权重衰减防止过拟合（L2正则化）

1.、权重衰减（weight decay）L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。2、L2正则化与权重衰减系数L2正则化就是在代价函数后面再加上一个正则化项：其中C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C...

2019-09-25 16:49:18 1997 1

转载训练网络时loss不下降原因

1、网络训练时train loss与test loss的结果分析(1) train loss不断下降，test loss不断下降可能发生的原因：网络还在学习中，loss在稳步下降。(2) train loss不断下降，test loss趋于不变可能发生的原因：网络出现过拟合的现象，因此在训练集上表现为网络仍在学习，但是test loss趋于不变说明网络泛化能力差。...

2019-09-25 16:15:06 810

转载过拟合、欠拟合

1、过拟合和欠拟合无论在机器学习还是深度学习建模当中都可能会遇到两种最常见结果，一种叫过拟合（over-fitting ）另外一种叫欠拟合（under-fitting）。首先谈谈什么是过拟合呢？什么又是欠拟合呢？网上很直接的图片理解如下：所谓过拟合（over-fitting）其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中...

2019-09-25 16:08:42 774

转载学习曲线

1、学习曲线是什么？学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率，可以看到模型在新数据上的表现，进而来判断模型是否方差偏高或偏差过高，以及增大训练集是否可以减小过拟合。学习曲线能判定偏差和方差问题1、当训练集和测试集的误差收敛但却很高时，为高偏差。左上角的偏差很高，训练集和验证集的准确率都很低，很可能是欠拟合。我们可以增加模型参数，比如，构建更多的特征，减...

2019-09-25 15:24:05 7079

转载多层感知机MLP

1、神经元神经网络的构建块是人工神经元。这些是具有加权输入信号并使用激活功能产生输出信号的简单计算单元。输出和输入之间学习到一个线性关系，得到中间输出结果：接着是一个神经元激活函数:激活函数是输入加权和与神经元输出的简单映射。它被称为激活函数，因为它控制神经元被激活的阈值和输出信号的强度。从而得到我们想要的输出结果1或者-1。这个模型只能用于二元分类，且无法学...

2019-09-25 13:58:46 1231

转载 Softmax函数与交叉熵损失函数

1、基础概念2、概率解释3、向量计算的准备4、softmax的导数5、Softmax和交叉熵损失

2019-09-25 11:54:48 412

原创二分搜索算法与贪婪算法

本文整理于【拉勾*力扣】课程笔记，侵删~1、二分搜索2、二分搜索算法实现（递归、非递归）（1）递归写法：（2）非递归写法3、题型一：找上下界问题4、题型二：找模型的边界问题5、题型：旋转后的排序数组6、题型：不定长的边界7、贪婪算法...

2019-09-24 14:25:27 483

原创动态规划

本文整理于【拉勾*力扣】课程笔记，侵删~1、动态规划定义2、例题：最长上升子序列的长度题目：解法：1、暴力搜索：2、动态规划：这个状态转移方程的含义是：以nums[n-1]结尾的最长子序列长度，等于以nums中0到n-2任意一个数字结尾的最长子序列长度+1代码：递归写法递归写法时间复杂度分析：递归+记忆化：直...

2019-09-24 12:59:58 84

原创深度优先搜索DFS和广度优先搜索BFS

本文整理于【拉勾*力扣】课程笔记，侵删~1、深度优先搜索2、深度优先搜索算法思想（栈）先选择一个节点A放入栈中，并标记访问过，输出结果；将与A相连的、没有被访问过的节点，选择一个节点B放入栈中，并标记访问过，输出结果；重复以上操作...，结果为A B E G，此时，与当前节点G相连的节点都被访问过，于是将其从栈中弹出；同理弹出E；重复以...

2019-09-24 00:13:56 305

原创递归与回溯

本文整理于【拉勾*力扣】课程笔记，侵删~1、递归2、例题：汉诺塔题目：将A上所有盘子挪到C上解法：要想将A上所有盘子挪到C上，首先要将A上前n-1个盘子放在B上，将第n个盘子放在C上，再将前n-1个盘子放在C上；同理，再将B上的前n-2个盘子放在A上，将B上最大的盘子放在C上，再将A上的n-2个盘子放在C上；以此类推...代码实现：...

2019-09-23 23:37:24 131

原创排序算法

本文整理于【拉勾*力扣】课程笔记，侵删~1、常用排序算法2、冒泡排序3、例题：冒泡排序题目：解法：从数组第一个元素开始，相邻元素比较大小，如果前面元素>后面元素，则两两交换；第一趟冒泡的结果是：【1，2，7，5，8，9】，最大的元素放置在数组末尾；第二天冒泡的结果是：【1，2，5，7，8，9】，第二大的元素放置在数组倒数第二个位置；...

2019-09-23 14:24:20 198

原创优先队列、图、前缀树、线段树、树状数组

本文整理于【拉勾*力扣】课程笔记，侵删~1、优先队列向上筛选：每次新元素放在最底部，然后和它的父节点比较，若新元素优先级高，则交换新元素与父节点的位置，直到无法交换向下筛选：每次新元素放在最顶部，然后和它的两个子节点比较，如果哪个子节点的优先级高，则交换新元素与这个子节点的位置，直到无法交换。2、题目：前K个高频元素（优先队列经典题型）先使用哈希表记...

2019-09-23 11:46:07 359

转载平衡二叉（查找）树

平衡二叉搜索树，又被称为AVL树，且具有以下性质：它是一棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左右两个子树都是一棵平衡二叉树。 —-来自百度百科由于普通的二叉查找树会容易失去”平衡“，极端情况下，二叉查找树会退化成线性的链表，导致插入和查找的复杂度下降到 O(n) ，所以，这也是平衡二叉树设计的初衷。那么平衡二叉树如何保持”平衡“呢？根据定义，有两个重点，一是左右两子树的高度差...

2019-09-23 00:44:31 298

转载二叉查找树

二叉查找树，也称二叉搜索树，或二叉排序树。其定义也比较简单，要么是一颗空树，要么就是具有如下性质的二叉树：（1）若任意节点的左子树不空，则左子树上所有结点的值均小于它的根结点的值；（2）若任意节点的右子树不空，则右子树上所有结点的值均大于它的根结点的值；（3）任意节点的左、右子树也分别为二叉查找树；（4）没有键值相等的节点。如上图所示，是不同形态的二叉查找树。二叉...

2019-09-23 00:38:25 387

原创数组、字符串、链表、栈、队列、双端队列、树

本文整理于【拉勾*力扣】课程笔记，侵删~1、题目：字符串翻转解法：两个指针指向首尾，元素交换，指针向中间移动，继续交换元素2、数组优缺点3、题目：有效的字母异位词（数组）解法1：两个长度为26的数组，分别统计两个字符串中各字母的个数，比较两个数组即可解法2：一个长度为26的数组，出现在s中，该位置+1，出现到t中，该位置-1，判断是否每个位置都...

2019-09-22 23:54:36 184

原创机器学习常用十大算法总结

一、线性回归1、定义2、损失函数https://blog.csdn.net/qq_32172681/article/details/98056941二、逻辑回归LR1、定义2、为什么使用sigmoidhttps://blog.csdn.net/qq_32172681/article/details/1010806283、极大似然估计（估计参数）https://b...

2019-09-22 21:34:08 215

原创集成算法 xgboost

1、集成算法xgboost -- 梯度提升树该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。在原有的模型基础上，不断加...

2019-09-22 19:36:52 281

转载常见算法面试题

数据库中的主键、索引和外键（数据分析岗经常问）决策树ID3和C4.5的差别？各自优点？Boost算法CART（回归树用平方误差最小化准则，分类树用基尼指数最小化准则）GBDT与随机森林算法的原理以及区别。优化算法中常遇到的KKT条件？作用是？最近邻算法KNN（分类与回归）L1和L2函数？L1和L2正则项的比较，如何解决 L1 求导困难？L1正则为何可把系数压缩成0，说明坐标下降法的...

2019-09-22 14:14:26 148

空空如也

空空如也