NIGHT_SILENT-CSDN博客

原创梯度消失和梯度爆炸

梯度消失和梯度爆炸定义：它的定义经常被人们搞不清楚，看似和梯度有关系，但是从吴恩达的视频来看，梯度消失和梯度爆炸指的是——后面层神经元的值变得非常大或者非常小。当w仅仅比1大一点点，那么随着层数的增加，后边神经元的值会越来越大，叫做梯度爆炸；当w仅仅比1小一点点，那么随着层数的增加，后边神经元的值会越来越小，叫做梯度消失。梯度消失和梯度爆炸的解决方案：将w的初始值...

2018-08-02 19:46:50 736

一般情况下，最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N，那么对于每一个样例，神经网络可以得到一个N维的数组作为输出结果，数组中每一个维度会对应一个类别。在最理想的情况下，如果一个样本属于k，那么这个类别所对应的的输出节点的输出值应该为1，而其他节点的输出都为0，即[0,0,1,0,….0,0]，这个数组也就是样本的Label，是神经网络最期望的输出结果，交叉熵就是用来判定...

2018-07-17 14:24:40 1002 2

原创深度网络架构

Rumelhart、Hinton和Williams在1986年提出了反向传播(BP)算法。LeNet奠定了CNN的三大核心思想：局部感受野，权值共享，下采样。Alexnet为什么成功：imagenet、gpu（多gpu计算）、relu替代sigmoid、dropout、数据增广Vgg：将网络加深，卷积核全部使用3*3GoogLenet：何凯明在17年CVPR的报告中总结GoogLe...

2018-07-04 09:49:27 2011

转载 Tensorflow 如何定义 tensor常量 & tensor变量

申明：本文非笔者原创，原文转载自：https://blog.csdn.net/vagrantabc2017/article/details/780622181.常量tensorzeros_tsr = tf.zeros([2, 3])show("tf.zeros:",zeros_tsr)ones_tsr = tf.ones([1, 3])show("tf.ones:",ones_ts...

2018-06-26 17:32:17 7652

原创 Tensorflow:FailedPreconditionError (see above for traceback): Attempting to use uninitialized value

错误： FailedPreconditionError (see above for traceback): Attempting to use uninitialized value Variable_4 [[Node: Variable_4/read = Identity[T=DT_FLOAT, _class=[&amp;amp;quot;loc:@Variable_4&amp;amp;quot;], _device=&amp;amp;quot;

2018-06-26 16:41:40 1177 1

原创 tensorflow出现错误：AttributeError: enter

错误：AttributeError: __enter__源码：n = tf.sqrt(tf.reduce_sum(tf.square(tf.Variable([[1,2,3],[2,3,4]],dtype=tf.float32)),keep_dims=True)) with tf.Session as sess: sess.run(tf.global_variabl...

2018-06-26 16:32:05 2179

原创非线性激活函数（为什么需要它、导数、优缺点）

为什么需要非线性激活函数？a=z 叫做线性激活函数或恒等激活函数如果使用线性激活函数，那么这个模型的输出不过是你输入特征x的线性组合。神经网络只是把输入线性组合再输出。所以即使你有很多个隐含层，但是你如果使用线性激活函数或者不用激活函数，一直在做的只是计算线性激活函数，所以还不如直接去掉全部隐藏层。所以除非引入非线性，那么无法计算更有趣的函数。只有一个地方可以使用线性激活函数，那就是回归问题。...

2018-06-25 21:56:11 15772 2

转载世界杯比赛规则

世界杯一共进行64场，其中分小组赛48场，1/8决赛8场，1/4决赛4场，半决赛两场，决三、四名比赛一场，冠亚军决赛一场。中文名世界杯比赛规则球队数32支参赛队比赛场次 64场比赛分组8组32支参赛队通过抽签分为八个小组,每个小组分别有四支球队进行比赛，每支球队都必须和其他三支球队进行且只进行一场比赛,每组4个队循环比赛，共打6场(a1-a2;a1-a3;a1-a4;a2-a3;a2-a...

2018-06-25 12:24:30 1012

转载 B/S结构 C/S结构

B/S结构（Browser/Server，浏览器/服务器模式），是WEB兴起后的一种网络结构模式，WEB浏览器是客户端最主要的应用软件。这种模式统一了客户端，将系统功能实现的核心部分集中到服务器上，简化了系统的开发、维护和使用。客户机上只要安装一个浏览器（Browser），服务器安装Oracle、Sybase、Informix 或 SQL Server 等数据库。浏览器通过 Web Server...

2018-06-25 12:03:42 1501

原创过拟合（定义、出现的原因4种、解决方案7种）

定义定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。 ———《Machine Learning》Tom M.Mitchell出现过拟合的原因1. 训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度；2. 训练集和测试集特征分布不一致；3. 样本...

2018-06-25 11:07:27 58899

转载参数、超参数区别

在机器学习或者深度学习领域，参数和超参数是一个常见的问题，个人根据经验给出了一个很狭隘的区分这两种参数的方法。参数（parameters）：是模型根据数据可以自动学习出的变量。eg，（深度学习的权重，偏差等）超参数（hyperparameters）：超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。用来确定模型的一些参数，超参数不同，模型是不同的(这个模型不同的意思就是有微小的...

2018-06-24 21:01:58 2758

转载训练集、验证集、测试集简介

在训练有监督的机器学习模型的时候，会将数据划分为训练集、验证集和测试集，划分比例一般为0.6:0.2:0.2。对原始数据进行三个集合的划分，是为了能够选出效果（可以理解为准确率）最好的、泛化能力最佳的模型。训练集（Training set ）A set of examples used for learning, which is to fit the parameters [i.e., weig...

2018-06-24 20:43:57 463

NIGHT_SILENT的博客