![](https://img-blog.csdnimg.cn/20200422175913168.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
文章平均质量分 91
神经网络
山高月小 水落石出
在广袤的空间和无限的时间中,能与你共享同一颗行星和同一段时光,是我莫大的荣幸。
展开
-
对多条序列做加权得到一条新序列,使其逼近某一特定序列。目标函数采用SSE,并给出目标函数的jacobian向量和hessian矩阵,可提升梯度下降的速度和精度。
原创 2019-07-09 19:31:07 · 173 阅读 · 0 评论 -
多元函数驻点性质的判断方法,牛顿法进行梯度下降的公式,多元函数凸性的判断方法。
首先介绍矩阵的迹(trace)的概念:如果一个矩阵是方阵,那它的迹tr(A)等于对角线的元素之和。多元函数判断驻点性质的方法:找到多元函数jacobian向量(即目标函数对自变量的一阶偏导数向量)为0的那些点,即驻点;将各驻点带入Hessian矩阵(即目标函数对各自变量的二阶偏导数组成的对称方阵,若有n个自变量,则Hessian矩阵为n×n),计算其行列式det(Hf):若det(Hf)<0,则该驻点是鞍点;若det(Hf)=0,则无法判断该驻点是极小值点、极大值点、还是鞍点;若..翻译 2020-08-04 21:14:15 · 5803 阅读 · 4 评论 -
所有能找到反函数的目标函数,一定能够将原目标函数的自变量显式地表达出来,重新构造目标函数;当新目标函数比原目标函数关于各自的自变量更简单时,则可减小做梯度下降的计算量。
1.概述虽然绝大多数机器学习的最终目标函数很复杂,特别是神经网络的最终目标函数,无比复杂;但是单独考察有些神经元或者神经元中某部分等最终目标函数中一些小单元的目标函数,可能是通用经典函数,如sigmoid、tanh等。如果能找到这些经典函数的反函数,就一定能将它们的自变量提取出来,重新构造这些小单元的目标函数,减少做梯度下降时的计算量。这是因为对因变量做梯度下降的计算量一定比对其自变量做梯度下降时的计算量大,因变量相当于对自变量再做一次复合函数,除了y=k·x这种因变量y和自变量x属于同一计算复杂度的函.原创 2020-09-23 15:30:39 · 629 阅读 · 0 评论 -
将不同量级的序列转化为同一量级,及常用的数据缩放的方法
联合多重时间序列本身是一件挑战性十足的事,数据样本的不均衡导致了不同时间序列对于模型的影响程度是不同的。拿商品销售为例,销售数量多一个数量级,商品数量就少一个数量级,每个月卖10个的商品如果有100,000种,每个月卖100个的商品就只有10,000种,每个月卖1000个的商品就只有1000种。(满足幂律分布:y = 1,000,000 / x)这种不均衡样本导致输入值的量级差异,商品A每天销售数百个,商品B每天销售数万个,两个商品共同训练时商品A的信息会被忽略掉,因为相对于B而言,A对神经网络参数的影响太转载 2020-07-14 16:36:57 · 4074 阅读 · 0 评论 -
深度学习必备:随机梯度下降(SGD)优化算法及可视化
梯度下降综述转载 2018-10-17 17:55:23 · 4067 阅读 · 2 评论 -
卷积神经网络入门:LeNet5(手写体数字识别)详解
第一张图包括8层LeNet5卷积神经网络的结构图,以及其中最复杂的一层S2到C3的结构处理示意图。第二张图及第三张图是用tensorflow重写LeNet5网络及其注释。这是原始的LeNet5网络:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport time...原创 2018-10-16 10:19:14 · 6016 阅读 · 4 评论 -
卷积运算的本质,以tensorflow中VALID卷积方式为例。
卷积运算在数学上是做矩阵点积,这样可以调整每个像素上的BGR值或HSV值来形成不同的特征。从代码上看,每次卷积核扫描完一个通道是做了一次四重循环。下面以VALID卷积方式为例进行解释。下面是python的代码:def convolve(dateMat,kernel): m,n = dateMat.shape km,kn = kernel.shape newMat = ...原创 2018-10-16 18:35:19 · 431 阅读 · 0 评论