![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
神经网络
文章平均质量分 50
zjz_xn
这个作者很懒,什么都没留下…
展开
-
常见的损失函数之MSE\Binary_crossentropy\categorical_crossentropy
loss:MSE均方误差损失函数:是最经典也是最简单的损失函数,几乎万能,但是不太准确。binary_crossentropy二分类交叉熵损失函数:配合sigmoid输出层用于二分类问题categorical_crossentropy多分类交叉熵损失函数,配合softmax输出层用于多分类问题损失函数是机器学习最重要的概念之一。这篇文章写的时候还很嫩,读者指出的很多问题无法一一答复,可参考其他文章哈。通过计算损失函数的大小,是学习过程中的主要依据也是学习后判断算法优劣的重要判据。常用的损失转载 2022-03-12 23:55:52 · 907 阅读 · 0 评论 -
梯度下降:BGD,SGD,mini-batch介绍及其优缺点
转载 2022-02-15 01:40:37 · 552 阅读 · 0 评论 -
谈谈神经网络权重为什么不能初始化为0
转载 2022-02-10 22:49:17 · 321 阅读 · 0 评论 -
sklearn.datasets.make_circles()函数和make_moons()函数
sklearn.datasets.make_circles(n_samples = 100,shuffle = True,noise = None,random_state = None,factor = 0.8 )作用:在2d中创建一个大圆包含小圆的的样本集。一个简单的数据集,用于可视化聚类和分类算法。 n_samples : int,optional(默认值= 100) 生成的总点数。如果是奇数,则内圆将比外圆具有一个点。 shuffle : bool,optional(默认值= True转载 2022-02-09 19:45:49 · 2738 阅读 · 0 评论 -
什么是dropout?
最近有个新闻闹得沸沸扬扬,那就是dropout这个算法竟然被谷歌申请了专利真是神奇了,加减乘除还能被申请专利?不过大家不用担心,dropout肯定用还是可以用的,谷歌只是想特定时刻,利用专利保护或者对抗某些竞争对手或者不良企业那么今天我们就来看看,这个dropout到底是如何一顿操作猛如虎,让谷歌能花费3年时间就为了一个简单的算法申请专利dropout 从字面意思就是‘丢掉’丢掉?丢掉什么?别急,我们来看看?上图特征清晰明了,相必大家一眼就能认出是谁了把根据这些特征,神经网络也能认出来,转载 2022-01-28 19:52:25 · 1017 阅读 · 0 评论 -
Blue得分详细计算过程
# 计算BLEU值def bleu(candidate, references, weights)# (1)私有函数,计算修正的n元精确率(Modified n-gram Precision)def _modified_precision(candidate, references, n)# (2)私有函数,计算BP惩罚因子def _brevity_penalty(candidate, references)def _modified_precision(candidate, refe.转载 2022-01-28 19:42:37 · 1388 阅读 · 0 评论 -
一文看懂Word2Vec
什么是 Word2vec ?Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的词嵌入方法。需要说明的是:Word2vec 是上一代的产物(18 年之前), 18 年之后想要得到最好的效果,已经不使用 Word Embedding 的方法了,所以也不会用到 Word2vec。这种方式在 2018 年之前比较主流,但是随着 BERT、GPT2.0 的出现,这种方式已经不算效果最好的方法了。Word2vec 在整个 NLP 里的位置可以转载 2022-01-23 22:53:07 · 921 阅读 · 0 评论 -
人人都能看懂的LSTM介绍及反向传播算法推导(非常详细)
前向与反向算法与上述变种相同,这里不再做过多推导。转载 2022-01-21 00:28:53 · 326 阅读 · 0 评论 -
深度学习之GRU网络
转载 2022-01-21 00:22:05 · 164 阅读 · 0 评论 -
Pascal Voc数据集详细分析
前言做深度学习目标检测方面的同学怎么都会接触到PASCAL VOC这个数据集。也许很少用到整个数据集,但是一般都会按照它的格式准备自己的数据集。所以这里就来详细的记录一下PASCAL VOC的格式,包括目录构成以及各个文件夹的内容格式,方便以后自己按照VOC的标准格式制作自己的数据集。正文相关网址Pascal VOC网址:http://host.robots.ox.ac.uk/pascal/VOC/查看各位大牛算法的排名的Leaderboards:http://host.robots.ox.ac.转载 2022-01-09 11:42:54 · 458 阅读 · 0 评论 -
PASCAL VOC 数据集简介
三、标注标准及 XML 解析标注标准:VOC2011 Annotation Guidelines标注信息是用 xml 文件组织的如下:<annotation> <folder>VOC2007</folder> <filename>000001.jpg</filename> # 文件名 <source> <database>The VOC2007 Database</database> ...转载 2022-01-09 11:35:24 · 254 阅读 · 0 评论 -
MS COCO数据集详解
一、一些网址数据集官网首页:http://cocodataset.org/#home数据集下载:可用迅雷去下载官方链接,速度还是挺快的。如果速度不快,可能你需要找“正确版本”的迅雷也可以去这个高中生搭建的下载站下载:http://bendfunction.f3322.net:666/share/。 他的首页是这样子的:http://bendfunction.f3322.net:666/https://pjreddie.com/projects/coco-mirror/数据集格式介绍:http转载 2022-01-09 11:30:14 · 2253 阅读 · 0 评论 -
Inception系列网络
这一系列的文章回顾了1998年开始,近19年来卷积神经网络的发展概况。这篇文章介绍的网络有Inception V1、Inception V2、Inception V3、Inception V4与Inception-ResNet-V2。从2014年开始,深度学习模型在图像内容分类和视频分类方面有了极大的应用,仅仅2014这一年就出现了对后来影响巨大的VGG和GooLeNet。Inception V1在这之前,网络大都是这样子的:也就是卷积层和池化层的顺序连接。这样的话,要想提高精度,增加网络深度和宽转载 2022-01-08 23:54:17 · 1498 阅读 · 0 评论 -
十分钟一起学会Inception网络
一、Inception网络简介二、Inception网络模块三、Inception网络降低参数计算量四、Inception网络减缓梯度消失现象五、Inception网络框架六、Inception论文彩蛋一、Inception网络简介Inception网络又叫做GoogLeNet,之所以不叫GoogleNet,是为了向LeNet致敬,是2014年ChristianSzegedy在《Going deeper with convolutions》提出的一种全新的深度学习结构。一般来说,提升网络性能转载 2022-01-08 23:29:17 · 1731 阅读 · 1 评论 -
1x1卷积核的作用
之前只是知道1x1的卷积核用在Inception模块中具有降维的作用,并没有认真的思考它是怎么样实现降维的,以及它还有哪些作用。于是查阅了一些资料,并记录了它的一些作用,如下:一、灵活的控制特征图的深度1x1的卷积核由于大小只有1x1,所以并不需要考虑像素跟周边像素的关系,它主要用于调节通道数,对不同的通道上的像素点进行线性组合,然后进行非线性化操作,可以完成升维和降维的功能,如下图所示,选择2个1x1大小的卷积核,那么特征图的深度将会从3变成2,如果使用4个1x1的卷积核,特征图的深度将会由3变成4。转载 2022-01-07 18:55:58 · 2780 阅读 · 0 评论 -
几种经典的卷积神经网络模型
1.卷积神经网络解决的问题我们构造了⼀个含单隐藏层的多层感知机模型来对Fashion-MNIST数据集中的图像进⾏分类。每张图像⾼和宽均是28像素。我们将图像中的像素逐⾏展开,得到⻓度为784的向量,并输⼊进全连接层中。然而,这种分类⽅法有⼀定的局限性。图像在同⼀列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输⼊图像,使⽤全连接层容易造成模型过大。假设输⼊是⾼和宽均为1000像素的彩⾊照⽚(含3个通 道)。即使全连接层输出个数仍是256,该层权重参.转载 2022-01-07 15:21:04 · 15250 阅读 · 1 评论 -
残差网络ResNet最全分析
论文的翻译一从理论上分析,越深的网络就会有越好的学习能力可以整合图像的低维、中维、高维的信息。1.越深的网络是不是就只是叠加层数这么简单呢?会产生梯度的爆炸或者消失,严重影响学习速率。针对这个问题,我们可以通过归一的初始化和中间的归一化层得到缓和(增加BN)随着网络结构的深度加深又会出现另一个问题:退化退化:随着网络深度的增加,准确度达到饱和然后迅速下降。不能用过拟合来解释,因为在train集上的精度也下降。图1分别表明了test和train的两种不同层网络随着迭代而时间准确率的变化。退化转载 2022-01-07 14:39:17 · 4196 阅读 · 0 评论 -
你真的看懂Relu了吗?大家都说是非线性,为什么我怎么看都是线性啊?
网上对Relu激活函数都是一顿夸,最多的就是说,在深层网络中,能缓解梯度消失的情况,并且由于梯度求解非常容易等优点,被广泛使用。但是,神经网络的激活函数必须是非线性的,否则,无论怎么加深网络,也仅仅只是线性函数的组合而已,仍然是线性,这样根本提升不了网络的表达能力。大部分资料对于Relu函数的非线性解释都是一句话,分段函数就是非线性。what?这还用你说?好了,这里做一个比较详细的解释。一、图像分析首先,单看Relu函数的左边或者右边,确实是线性的,整体来看,也确实是分段函数,说它是非线性函数也勉强转载 2022-01-07 14:14:25 · 3211 阅读 · 3 评论 -
一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)
转载 2022-01-06 22:57:23 · 372 阅读 · 0 评论 -
卷积的三种模式:full、same、valid + 卷积输出size的计算
注:Same卷积方式:卷积后的特征图大小跟卷积核大小无关,只跟卷积所用的步长有关,当卷积步长是1时,卷积前后特征图大小保持不变。转载 2022-01-06 22:45:48 · 384 阅读 · 0 评论 -
批归一化(Batch Normalization)
此算法的优势:(1) 可以使用更高的学习率。如果每层的scale不一致,实际上每层需要的学习率是不一样的,同一层不同维度的scale往往也需要不同大小的学习率,通常需要使用最小的那个学习率才能保证损失函数有效下降,Batch Normalization将每层、每维的scale保持一致,那么我们就可以直接使用较高的学习率进行优化。(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法,而导致overfit的位置往往在数据边界处,如果初始化权重就...转载 2021-12-28 21:16:30 · 197 阅读 · 0 评论 -
通俗理解指数加权平均
假如\beta=0.9,我们可以得到指数平均公式下的平均值求法如下:转载 2021-12-23 14:34:53 · 157 阅读 · 0 评论 -
mini-batch梯度下降
一般来说,当m<2000时直接一个batch即可,否则尝试用幂mini-batch。考虑到计算机内存是二进制的形式,所以一个mini-batch的大小设置为2的次方数,比如64、128、256、512。由于篇幅较少,所以就直接和代码放到一起了。import numpy as npimport matplotlib.pyplot as pltimport copyimport mathfrom scipy.io import loadmat, savemat# 读入样本数据(已经随..转载 2021-12-22 14:37:12 · 138 阅读 · 0 评论 -
【深度学习】梯度检验(Gradient Checking)
转载 2021-12-21 22:44:46 · 295 阅读 · 0 评论 -
梯度消失和梯度爆炸及解决方法
一、为什么会产生梯度消失和梯度爆炸?目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。而链式法则是一个连乘的形式,所以当层数越深的时候,梯度将以指数形式传播。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时,得到的梯度值接近0或特别转载 2021-12-21 16:03:58 · 7839 阅读 · 0 评论 -
机器学习之keras EarlyStopping()函数详解
EarlyStopping()1.函数简介使用该函数的目的是为了防止过拟合,由于在咱们训练模型的过程当中,颇有可能出现过拟合的状况。这个时候训练集表现很好,可是验证集表现就会降低。这时候咱们须要提早结束训练,获得“最佳”(只能判断是在全局范围内最佳)的结果。2.参数详解如下给出样例webEarlyStopping(monitor=‘val_loss’, min_delta=0, patience=10, verbose=2, mode=‘auto’, restore_best_weights=Tr转载 2021-12-20 20:57:25 · 1226 阅读 · 0 评论 -
输入归一化、批量归一化(BN)与层归一化(LN)
1、输入归一化在机器学习里使用线性分类器的时候,比如y = w 0 + w 1 ∗ x 1 + w 2 ∗ x 2… y=w0+w1x1+w2x2…y=w0+w1∗x1+w2∗x2…我们需要先将特征x 1 x1x1、x 2 x2x2…进行归一化,因为如果w 1 w1w1取值范围[100,1000],而w 2 w2w2取值范围只有[0.1,1],会使得w 1 w1w1在分类过程中起主导作用,这样往往并符合实际情况。虽然神经网络可以通过参数的调整来适应不同特征的取值范围,但是会导致训练效率比较低。不同输入转载 2021-12-20 20:42:39 · 289 阅读 · 0 评论 -
【直观详解】什么是正则化
【内容简介】主要解决**什么是正则化,为什么使用正则化,如何实现正则化,**外加一些对范数的直观理解并进行知识整理以供查阅转载 2021-12-20 09:00:01 · 118 阅读 · 0 评论 -
拟合函数,偏差和方差
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。...原创 2021-12-19 11:30:04 · 2625 阅读 · 0 评论 -
零基础入门深度学习(1) - 感知器
转载 2021-12-17 13:00:40 · 166 阅读 · 0 评论 -
梯度下降算法
梯度下降法简单来说就是一种寻找目标函数最小化的方法。梯度下降法是一个最优化算法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。缺点靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能会“之字形”地下降。...原创 2021-12-17 08:30:38 · 797 阅读 · 0 评论