2016年12月_2014wzy

原创 faster-rcnn 跑demo.py 无界面

http://blog.csdn.NET/jiajunlee/article/details/50373815 这个博客解决了编译cd$FRCN_ROOT/lib/ && make 找不到文件的问题。往往caffe环境都是在Linux服务器，或者远程登录，faster-rcnn的demo.py不能显示，运行会出现错误。将demo.py做以下修改：1 刚开始加入两行

2016-12-28 14:17:57 3331

原创 sed命令详解

在我写这篇blog之前还有点犹豫，因为像这么著名的命令，sed和awk应该在很多书籍里都有介绍，但是在网上找时，却是寥寥无几... sed简介 sed是一种非交互式的流编辑器，可动态编辑文件。所谓非交互式是说，sed和传统的文本编辑器不同，并非和使用者直接互动，sed处理的对象是文件的数据流（称为stream/流）。sed的工作模式是，比对每一数据行，若

2016-12-27 21:21:26 462

转载解决faster-rcnn中训练时assert（boxes[:,2]>=boxes[:,0]）.all()的问题

1、出现问题：训练faster rcnn时出现如下报错：File "/py-faster-rcnn/tools/../lib/datasets/imdb.py", line 108, in append_flipped_images assert (boxes[:, 2] >= boxes[:, 0]).all()AssertionError2、问题分析：检查自己数据发现，左

2016-12-27 21:01:46 2955 1

转载 Faster-RCNN+ZF用自己的数据集训练模型(Python版本and MATLAB版本）

说明：本博文假设你已经做好了自己的数据集，该数据集格式和VOC2007相同。下面是训练前的一些修改。（做数据集的过程可以看http://blog.csdn.net/sinat_30071459/article/details/50723212）Faster-RCNN源码下载地址：Matlab版本：https://github.com/ShaoqingRen/fa

2016-12-27 20:06:16 1741

转载 Linux下python matplotlib.pyplot在图像上显示中文的问题

之前用py-faster-rcnn训练了一个车牌检测模型，然后对检测出来的车牌进行识别，由于我国的车牌第一个一般为汉字，在图像上显示汉字时，出现很多问题，乱码、汉字变方框等，后来在网上看了很多办法才解决，下面把解决过程记录一下。以py-faster-rcnn的demo.py代码为基础，我在demo.py中的修改如下：（1）指定默认编码：[plai

2016-12-27 20:03:33 2262

原创 softmax layer是什么

中间蓝色区域表示一层layer，左边输入右边输出。softmax layer的意思就明白了。

2016-12-27 19:29:14 5085

转载周志华KDD China技术峰会现场演讲：深度学习并不是在“模拟人脑”

导语：12月18日，KDD China 技术峰会在深圳举行，本文根据周志华教授当天在会上所做的报告《关于机器学习研究的讨论》编辑整理而来。编者按：12月18日，KDD China技术峰会在深圳举行，雷锋网(公众号：雷锋网)根据周志华教授当天会上所做报告《关于机器学习研究的讨论》，摘取其中亮点内容整理成本文，由亚萌、亚峰、宗仁联合编辑。此前，在今年10月21日CNCC 2016大会上，周

2016-12-27 10:33:32 1390

转载 2016深度学习技术文章回顾

转眼间，2016年即将过去，公众号也迎来了第一个200天。我是在2016年6月8日开始创建这个公众号的，在这200天里，我已经养成了每周分享2-3篇的技术文章的习惯，一共写了85篇左右的文章，其中技术类文章约78篇。我将它们整理如下：2016年技术文章链接闲聊1.《聊聊语音识别的发展历程》2.《说说重要的贝叶斯公式吧》3.《我对入门深度学习的切身体会》

2016-12-26 14:42:51 1346 1

转载 ubuntu常用工具

作者：楼宇链接：https://www.zhihu.com/question/19811112/answer/128800925来源：知乎著作权归作者所有，转载请联系作者获得授权。=============常用工具篇=============输入法：搜狗拼音输入法办公软件：WPS Office相比 LibreOffice，界面更加用户友好一些，但是二者都有一

2016-12-26 10:46:31 1882

原创 caffe (SGD ADAGRAD NAG BN)

在Deep Learning中，往往loss function是非凸的，没有解析解，我们需要通过优化方法来求解。Caffe通过协调的进行整个网络的前向传播推倒以及后向梯度对参数进行更新，试图减小损失。 Caffe已经封装好了三种优化方法，分别是Stochastic Gradient Descent (SGD), AdaptiveGradient (ADAGRAD), and Nestero

2016-12-23 21:08:10 911

转载深度学习初始化方法

“Xavier”初始化方法是一种很有效的神经网络初始化方法，方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》，可惜直到近两年，这个方法才逐渐得到更多人的应用和认可。为了使得网络中信息更好的流动，每一层输出的方差应该尽量相等。基于这个目标，现在我们就

2016-12-22 20:10:04 8311

转载系列解读Dropout

本文主要介绍Dropout及延伸下来的一些方法，以便更深入的理解。想要提高CNN的表达或分类能力，最直接的方法就是采用更深的网络和更多的神经元，即deeper and wider。但是，复杂的网络也意味着更加容易过拟合。于是就有了Dropout，大部分实验表明其具有一定的防止过拟合的能力。1- Dropout最早的Dropout可以看Hinton的这篇文章《Impro

2016-12-22 20:07:41 1850

转载 Caffe、TensorFlow、MXnet三个开源库对比

库名称开发语言支持接口安装难度(ubuntu)文档风格示例支持模型上手难易Caffec++/cudac++/python/matlab*******CNN**MXNetc++/cudapython/R/Julia**

2016-12-22 19:52:46 2696

转载 tensorflow笔记：流程，概念和简单代码注释

tensorflow是google在2015年开源的深度学习框架，可以很方便的检验算法效果。这两天看了看官方的tutorial，极客学院的文档，以及综合tensorflow的源码，把自己的心得整理了一下，作为自己的备忘录。tensorflow笔记系列：（一） tensorflow笔记：流程，概念和简单代码注释（二） tensorflow笔记：多层CNN代码分析（三） te

2016-12-22 19:47:54 3279 1

转载 mxnet学习

由于caffe依赖性太多，配置极其复杂，所以将接下来的学习转向mxnet.因此本文主要记录我的学习历程，如果描述有什么问题，欢迎大家的指正。mxnet的优点很明显，简洁灵活效率高，多机多卡支持好。mxnet的github下载链接：https://github.com/dmlc/mxnet/mxnet的开发文档链接：http://mxnet.readthedocs.org/

2016-12-22 19:41:28 1490

转载人工智能的冰与火之歌：回顾2016，展望2017（余凯）丨硬创公开课

作者：机智的大群主链接：https://zhuanlan.zhihu.com/p/24501489来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。2016 年，人工智能在美好理想和残酷现实的夹缝中野蛮生长。当从业者们认为，人工智能时代是“技术为王”的时代，但面对价格战、商务战、公关战时，技术似乎不再是唯一的信仰。当从业者们认为，手握学术大牛、刷爆各

2016-12-22 15:52:45 830

转载 CS231n第八课：目标检测定位学习记录

结合视频第八集和笔记：http://chuansong.me/n/353443351445本节课程从分类（Classification），定位（Localization）和检测（Detection）三个方面入手。从上图可以直观的看到： 1.对于分类而言，就是对于给定的图片把其划分到给定的几种类别中某一种。很显然，图像中只能存在一种给定类别中的对象。 2.而定位就是找到对

2016-12-21 21:29:35 3276

转载 faster-rcnn 之 RPN网络的结构解析以及RPN代码详解

【首先】：大家应该要了解卷积神经网络的连接方式，卷积核的维度，反向传播时是如何灵活的插入一层；这里我推荐一份资料，真是写的非常清晰，就是MatConvet的用户手册，这个框架底层借用的是caffe的算法，所以他们的数据结构，网络层的连接方式都是一样的；建议读者看看，很快的；下载链接：点击打开链接【前面5层】：作者RPN网络前面的5层借用的是ZF网络，这个网络的结构图我截个图放在下面

2016-12-21 21:28:21 15528 6

转载卷积神经网络物体检测之感受野大小计算

学习RCNN系列论文时，出现了感受野(receptive field)的名词，感受野的尺寸大小是如何计算的，在网上没有搜到特别详细的介绍，为了加深印象，记录下自己对这一感念的理解，希望对理解基于CNN的物体检测过程有所帮助。1 感受野的概念　　在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小。

2016-12-21 20:56:42 7271

转载 Faster RCNN算法详解

Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015.本文是继RCNN[1]，fast RCNN[2]之后，目标检测界的领

2016-12-20 19:06:34 13770 2

转载 Fast RCNN算法详解

Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.继2014年的RCNN之后，Ross Girshick在15年推出Fast RCNN，构思精巧，流程更为紧凑，大幅提升了目标检测的速度。在Github上提供了源码。同样使用

2016-12-20 19:04:28 6748

转载神经网络之激活函数 dropout原理解读 BatchNormalization 代码实现

神经网络之激活函数(Activation Function)本博客仅为作者记录笔记之用，不免有很多细节不对之处。还望各位看官能够见谅，欢迎批评指正。更多相关博客请猛戳：http://blog.csdn.net/cyh_24如需转载，请附上本文链接：http://blog.csdn.net/cyh_24/article/details/50593400

2016-12-19 22:15:03 8842

转载 caffe中的卷积的计算细节和1x1卷积作用

在卷积神经网络中，卷积算是一个必不可少的操作，下图是一个简单的各层的关系。可以看出一个很好的扩展的关系，下面是整个卷积的大概的过程图中上半部分是传统的卷积的操作，下图是一个矩阵的相乘的操作。下图是在一个卷积层中将卷积操作展开的具体操作过程，他里面按照卷积核的大小取数据然后展开，在同一张图里的不同卷积核选取的逐行摆放，不同N的话，就在同一行

2016-12-19 22:12:24 2341

转载 R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD系列深度学习检测方法梳理

1. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation技术路线：selective search + CNN + SVMsStep1:候选框提取(selective search)训练：给定一张图片，利用seletive search方法从中提

2016-12-19 21:43:00 3610 1

原创 caffe（汇总）

深度卷积网络涉及问题：1.每个图如何卷积：（1）一个图如何变成几个？（2）卷积核如何选择？2.节点之间如何连接？3.S2-C3如何进行分配？4.16-120全连接如何连接？5.最后output输出什么形式？①各个层解释：我们先要明确一点：每个层有多个Feature Map，每个F

2016-12-19 21:36:46 1961

转载 Caffe源码阅读(1) 全连接层

今天看全连接层的实现。主要看的是https://github.com/BVLC/caffe/blob/master/src/caffe/layers/inner_product_layer.cpp主要是三个方法，setup，forward，backwardsetup 初始化网络参数，包括了w和bforward 前向传播的实现backward 后向传播的实现setup

2016-12-19 21:32:04 717

转载非极大抑制（Non-maximum suppression）

一、Nms主要目的在物体检测非极大抑制应用十分广泛，主要目的是为了消除多余的框，找到最佳的物体检测的位置。如上图中：虽然几个框都检测到了人脸，但是我不需要这么多的框，我需要找到一个最能表达人脸的框。下图汽车检测也是同样的原理。非极大值抑制因为一会儿讲RCNN算法，会从一张图片中找出n多个可能是物体的矩形框，然后为每个矩形框

2016-12-19 21:30:54 2338

转载 Bounding box regression详解

Reference link:http://caffecn.cn/?/question/160Question:我只知道，输入检测到的box，回归的是检测到box中心点，以及box长和宽到标记的box的映射。看过rcnn的回归的过程，就是把那个loss函数最小。但这个红框里面的loss函数谁能解释下-------------------------

2016-12-19 21:30:09 2446

转载信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC

reference：http://blog.csdn.NET/marising/article/details/6543943在信息检索、分类体系中，有一系列的指标，搞清楚这些指标对于评价检索和分类性能非常重要，因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision R

2016-12-19 21:25:51 10471

转载 Caffe 增加自定义 Layer 及其 ProtoBuffer 参数

在飞驰的列车上，无法入眠。外面阴雨绵绵，思绪被拉扯到天边。翻看之前聊天，想起还欠一个读者一篇博客。于是花了点时间整理一下之前学习 Caffe 时增加自定义 Layer 及自定义 ProtoBuffer 参数的简单例程，希望对初学者有借鉴意义。博客内容基于新书《深度学习：21 天实战 Caffe》，书中课后习题答案欢迎读者留言讨论。以下进入

2016-12-19 21:23:08 783

dropout层的作用是防止训练的时候过拟合。在训练的时候，传统的训练方法是每次迭代经过某一层时，将所有的结点拿来做参与更新，训练整个网络。加入dropout层，我们只需要按一定的概率（retaining probability）p 来对weight layer 的参数进行随机采样，将被采样的结点拿来参与更新，将这个子网络作为此次更新的目标网络。这样做的好处是，由于随机的让一些节点不工作了，因此可

2016-12-16 20:59:32 2599

原创 RCNN到YOLO

Selective Search for Object Recognition Selective Search for Object Recognition(菜菜鸟小Q的专栏) Selective Search for Object Recognition(Surge) Selective Search for Object Recognition(原始论文) Efficient

2016-12-16 20:50:56 1011

转载深度学习与卷积神经网络（直观理解）

好吧，读了男神哥哥们的博客，自己写不来更好的。附上链接：凌风探梅的卷积神经网络（CNN）新手指南　http://blog.csdn.NET/real_myth/article/details/52273930；深度学习笔记整理系列：http://blog.csdn.Net/zouxy09/article/details/8775360 ；（xy）htt

2016-12-16 20:45:49 27093 1

转载 caffe-fast-rcnn（Caffe、FSRCNN、FastRCNN）

一、文件架构二、FSRCNN开发环境搭建：faster-rcnn:matlab版本ShaoqingRen/faster_rcnn: Faster R-CNNrbg提供的python版本rbgirshick/py-faster-rcnn12345git clone https://github.com/LMDB/lmdbCloning into

2016-12-16 20:36:16 4897 13

转载 Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN）

《Fully Convolutional Networks for Semantic Segmentation》CVPR 2015 best paperReference link: http://blog.csdn.NET/tangwei2014http://blog.csdn.Net/u010025211/article/details/51209504概览&主

2016-12-16 20:33:50 969

转载 faster rcnn源码解读（四）之数据类型imdb.py和pascal_voc.py（主要是imdb和roidb数据类型的解说）

faster用Python版本的https://github.com/rbgirshick/py-faster-rcnnimdb.py源码地址：https://github.com/rbgirshick/py-faster-rcnn/blob/master/lib/datasets/imdb.pyimdb源码：[python] view plain co

2016-12-16 20:32:10 1139

转载以resnet作为前置网络的ssd目标提取检测

以resnet作为前置网络的ssd目标提取检测1.目标本文的目标是将resnet结构作为前置网络，在imagenet数据集上进行预训练，随后将ssd目标提取检测网络（一部分）接在resnet前置网络之后，形成一个完整的ssd网络。 ssd网络下载和配置参考点击打开链接2.resnet前置网络pretrain2.1 利用imag

2016-12-16 20:30:23 3642

翻译 SSD论文Single Shot MultiBox Detector

SSD: Single Shot MultiBoxDetector Wei Liu1 , Dragomir Anguelov2 ,Dumitru Erhan3 , Christian Szegedy3,Scott Reed4 , Cheng-Yang Fu1 ,Alexander C. Berg 1 UNC Chapel Hill 2Zoox Inc. 3G

2016-12-16 20:28:32 8827

转载基于Faster-rcnn及FCN的中文OCR文本定位

启发光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般分为两个步骤：文字定位，即找到文字在图片中的位置；文字识别，即识别出找到的文字。文字定位也可能包含一些二值化，矫正的步骤。文字定位常见的算法MSER +SVM或者MSER + CNN，是一种自底向上的方法：首先产出大量MSE

2016-12-16 20:22:34 7834 1

转载将 ICDAR 2015 的 Ground Truth 标注在图像数据上

因为要标注数据，数据集是 ICDAR 2015 比赛中的 Challenge 4: Incidental Scene Text。原图及标注的图像，还有给定的 ground truth 文件如下所示：最左边是原图，中间是标注的图像，右边是 ground truth 文件内容，按顺时针顺序的坐标：x1,y1,x2,y2,x3,y3,x4,y4，最后是 wo

2016-12-13 10:48:18 2477 1

空空如也

空空如也