神经网络,卷积神经网络
fu_shuwu
这个作者很懒,什么都没留下…
展开
-
斯坦福cs224d(深度学习在自然语言处理上的应用)Lecture 2
原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰(jie.xiong.cs@gmail.com) && @王昱森 内容调整与校对:寒小阳 && 龙心尘 特别鸣谢:@面包包包包包同学的帮助 时间:2016年6月 出处: http://blog.csdn.net/han_xiaoyang/article/details/51648483转载 2017-09-17 11:29:04 · 1348 阅读 · 0 评论 -
Mask-RCNN 算法及其实现详解
https://blog.csdn.net/remanented/article/details/79564045写在前面:经过了10多天对RCNN家族的目标检测算法的探究,从一个小白到了入门阶段,觉得有必要记录下这些天学习的知识,如有理解的不到位的地方,还望各位大佬指教。文章代码量比较大,详细的看可能需要一段的时间,等毕设开题答辩完了之后有时间我再修改修改,望谅解。MASK RCNN 算...转载 2019-04-21 22:21:13 · 2767 阅读 · 0 评论 -
MaskRCNN源码解读
https://blog.csdn.net/horizonheart/article/details/81188161源码地址:https://github.com/matterport/Mask_RCNN这个是一个基于Keras写的maskrcnn的源码,作者写的非常nice。没有多余的问文件,源码都放在mrcnn中,readme里为了了解maskrcnn的运行流程,最好的办法就是...转载 2019-04-21 20:43:33 · 1274 阅读 · 1 评论 -
MaxPooling的作用
maxpooling主要有两大作用1. invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度)2. 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力(1) translation invariance:这里举一个直观的例子(数字识别),假设有一个16x16的图片,里面有个数字1...转载 2019-03-06 21:54:39 · 6433 阅读 · 0 评论 -
小白都能看懂的softmax详解
1.softmax初探在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义,softmax由两个单词组成,其中一个是max。对于max我们都很熟悉,比如有两个变量a,b。如果a>b,则max为...转载 2019-03-06 21:47:16 · 797 阅读 · 0 评论 -
卷积神经网络系列之softmax,softmax loss和cross entropy的讲解
我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等。虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变得非常简单,但是你对这些层具体是怎么实现的了解吗?你对softmax,softmax loss,cross entropy了解吗?相信很多人不一定清楚。虽然网上的资料很多,但是...转载 2019-03-06 21:26:50 · 267 阅读 · 0 评论 -
深入理解GoogLeNet结构
inception(也称GoogLeNet)是2014年Christian Szegedy提出的一种全新的深度学习结构,在这之前的AlexNet、VGG等结构都是通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如overfit、梯度消失、梯度爆炸等。inception的提出则从另一种角度来提升训练结果:能更高效的利用计算资源,在相同的计算量下能提取到更多的特征,从而...转载 2019-01-24 21:13:51 · 467 阅读 · 1 评论 -
Keras TensorFlow教程:如何从零开发一个复杂深度学习模型
Keras 是提供一些高可用的 Python API ,能帮助你快速的构建和训练自己的深度学习模型,它的后端是 TensorFlow 或者 Theano 。本文假设你已经熟悉了 TensorFlow 和卷积神经网络,如果,你还没有熟悉,那么可以先看看这个10分钟入门 TensorFlow 教程和卷积神经网络教程,然后再回来阅读这个文章。在这个教程中,我们将学习以下几个方面:为什么选择 Ke...转载 2019-01-05 22:39:36 · 566 阅读 · 0 评论 -
基于tensorflow + Vgg16进行图像分类识别
1. VGG-16介绍vgg是在Very Deep Convolutional Networks for Large-Scale Image Recognition期刊上提出的。模型可以达到92.7%的测试准确度,在ImageNet的前5位。它的数据集包括1400万张图像,1000个类别。 vgg-16是一种深度卷积神经网络模型,16表示其深度,在图像分类等任务中取得了不错的效果。 vgg...转载 2018-12-04 22:09:02 · 4261 阅读 · 1 评论 -
深度学习中的注意力机制
作者 | 张俊林责编 | 何永灿 最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。注意力模型...转载 2018-11-25 10:43:20 · 2725 阅读 · 0 评论 -
【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。今天我们首先来谈一下当今流行的文字检测技术有哪些。文本检测不是一件简单的任务,尤其是复杂场景下的文本检测,非常具有挑战性。自然场景下的文本检测有如下几个难点:文本存在多种分布,文本排布形式多样; 文本存在多个方向; 多种语言混合。 我们先从直观上理解文本...转载 2018-11-18 10:55:54 · 1486 阅读 · 0 评论 -
详述目标检测最常用的三个模型:Faster R-CNN、SSD和YOLO
最近做一些关于Faster R-CNN、SSD和YOLO模型选择和优化的项目,之前只了解Faster R-CNN系列目标检测方法,于是抽空梳理一下这几个检测模型。先上两张简单的精确度和运算量的对比图,有个粗略的了解,虽然图中缺了YOLO,参考价值仍然很大:下面开始分别详述吧~Faster R-CNN架构传统目标检测方法大致分为如下三步:深度学习特别是CNN的出现...转载 2018-11-18 10:13:41 · 8054 阅读 · 0 评论 -
基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。object detection技术的演进:RCNN->S...转载 2018-11-18 09:17:39 · 694 阅读 · 1 评论 -
Attention注意力机制--原理与应用
Attention注意力机制--原理与应用注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。什么是Attention?Att...转载 2018-11-24 10:05:05 · 1553 阅读 · 0 评论 -
中文文本识别 FSNS格式tfrecord生成
最近,想使用谷歌的Attention OCR做中文文本识别,项目github地址:https://github.com/A-bone1/Attention-ocr-Chinese-Version,中文介绍可参考CSDN博客:https://blog.csdn.net/qq_40003316/article/details/80062023。 研究后发现该模型的训练数据需要提供FSN...转载 2018-11-24 09:37:12 · 1247 阅读 · 0 评论 -
基于注意力模型和卷积循环神经网络的中文自然场景文本识别
最近,在进行相关中文文本识别的工作,查阅了许多论文。最终决定参考谷歌的基于注意力机制的街景文本识别的论文:"Attention-based Extraction of Structured Information from Street View Imagery",并对官方源代码进行修改。 本次中文文本识别的github地址为:https://github.com/A-bone1/...转载 2018-11-24 09:30:13 · 2021 阅读 · 0 评论 -
深度学习与自然语言处理(3)_斯坦福cs224d Lecture 3
原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰(jie.xiong.cs@gmail.com) && @王昱森(ethanwang92@outlook.com) && @范筑军老师( fanzhj@mail.sysu.edu.cn) && @OWEN(owenj1989@126.com) 内容校正:寒小阳 && 龙心尘 时间:2016年6月 出转载 2017-11-23 20:14:57 · 1791 阅读 · 0 评论 -
【OCR技术系列之七】端到端不定长文字识别CRNN算法详解
在以前的OCR任务中,识别过程分为两步:单字切割和分类任务。我们一般都会讲一连串文字的文本文件先利用投影法切割出单个字体,在送入CNN里进行文字分类。但是此法已经有点过时了,现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过DCNN和RNN后,在输出阶段经过一定的翻译后,就可以对整个文...转载 2019-09-14 10:18:39 · 1285 阅读 · 1 评论