- 博客(314)
- 资源 (92)
- 收藏
- 关注
原创 图像超分辨之RDN(Residual Dense Network)
论文:Residual Dense Network for Image Super-Resolution Github:https://github.com/yulunzhang/RDNhttps://github.com/hengchuan/RDN-TensorFlow 整体结构: RDN(Residual Dense Network)主要包含4个模块。...
2018-08-06 19:38:14 38712 6
原创 注意力模型CBAM
论文:CBAM: Convolutional Block Attention Module Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块。是一种结合了空间(spatial)和通道(channel)的注意力机制模块。相比于senet只关注通道(channel)的注意力机制可以取得更好的效果。 基于传统VGG结构...
2018-08-03 19:27:03 80777 77
原创 识别引擎ocropy->ocropy2->OCRopus3总结
论文:The OCRopus Open Source OCR SystemTransfer Learning for OCRopus Model Training on Early Printed BooksGitHub:https://github.com/tmbdev/ocropyhttps://github.com/tmbdev/ocropy2https://gith...
2018-07-28 17:24:54 7149 24
原创 vim 插件配置
vimrc位置:/etc/vim/vim插件位置:~/.vim也就是/root/.vimVim背景主题位置:/usr/share/vim/vim74Vim基本命令配置:set nu "可以在每一行最前面显示行号set tabstop=4 "tab=4个空格set cursorline "显示行...
2018-07-23 17:21:08 2080
原创 字符识别引擎Calamari总结
论文:Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition Github:https://github.com/Calamari-OCR/calamari依赖:Python3Tensorflow1.8图片预处理:灰度图片 ...
2018-07-18 18:42:50 5780 2
原创 场景文字检测之CTPN
论文:Detecting Text in Natural Image with Connectionist Text Proposal NetworkGithub(caffe版本):https://github.com/tianzhi0549/CTPNGithub(tensorflow版本):https://github.com/eragonruan/text-detection-ctpn...
2018-07-11 17:29:38 9314 9
原创 文本行检测之PixelLink
论文:PixelLink: Detecting Scene Text via Instance Segmentation Github:https://github.com/ZJULearning/pixel_link 整体框架: PixelLink主要基于CNN网络,分别做文本,非文本分类预测和像素的8个方向是否连接预测这2个任务。然后基于Opencv的minAreaRe...
2018-07-07 18:17:37 14558 1
原创 SENet
论文:Squeeze-and-Excitation NetworksGithub:https://github.com/hujie-frank/SENet Momenta ILSVRC 2017 分类任务的冠军,top-5 错误达到2:251% ,相比2016年冠军有∼25% 的准确性提升。 模型整体结构:Ftr函数表示一系列的卷积,池化操作等。其中X代表输入图片,v代表卷积核。Fsq函数代表gl...
2018-07-02 19:49:56 4013
原创 姿态估计之CPN(Cascaded Pyramid Network)
这篇是face++2017年coco keypoint benchmark 数据集冠军的文章。主要提出了基于CPN(Cascaded PyramidNetwork)结构的人体关键点检测框架。Top-downpipeline:整体框架采用Top-down自上而下的检测策略。首先使用行人检测框架,先检测出行人候选框。然后使用本文的CPN网络对每一个检测出来的行人候选框进行人体关键点的回归,进而输出最终...
2018-07-01 00:15:48 26462
原创 目标检测之Light-Head R-CNN
Face++ 2017年的作品。主要基于RFCN的改进,基于2种基础框架backbone得出2种模型。以ResNet101为基础网络的大模型,具有比faster RCNN更高的精度,以类似Xception为基础网络的小模型,比SSD,YOLO更快。 类似Xception的网络结构如下图所示。 下图分析了faster RCNN,RFCN,Light-Head R-CNN,三个...
2018-06-29 20:06:44 6694
原创 MegDet:大mini-batch 检测器
MegDet为face++ 提出的通用检测框架。整体结构为类似于faster RCNN的2层结构,基础网络类似于Resnet50。获得了2017 COCO检测第一名,发表于cvpr 2018。文章主要讲解大mini-batch这个训练技巧,实现了在大mini-batch下的精度提升1.5个点。 小mini-batch的缺点:(1)训练时间太长。(2)小的batch对于b...
2018-06-25 17:49:48 2841
原创 损失函数loss大总结
分类任务loss:二分类交叉熵损失sigmoid_cross_entropy:TensorFlow 接口:tf.losses.sigmoid_cross_entropy( multi_class_labels, logits, weights=1.0, label_smoothing=0, scope=None, loss_c...
2018-06-23 23:29:44 119281 30
原创 端到端的文本检测识别
选自ICCV 2017 澳大利亚阿德莱德大学沈春华老师组的作品Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks 。是目前为止第一篇提出端到端OCR文字检测+识别的文章。 文章主要3点贡献:(1)提出端到端的OCR检测+识别的框架(2)改进的ROI pooling。相比于fasterRCNN中R...
2018-05-21 18:35:27 11680 1
原创 yolov3
Anchor策略:yolov3延续了yolov2的anchor策略,基本没有变化。边框的表示方式通过框的中心坐标bx,by,和框的宽bw,高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图,其中,cx,cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的cell...
2018-05-16 12:23:56 31444 14
原创 使用渐进校准网络(PCN)的实时旋转不变人脸检测
论文为山世光老师组2018 cvpr的作品。 人脸3D变换基础:平面内旋转(左右歪头问题):roll,本人重点讨论的问题平面外左右旋转(正脸,侧脸问题):yaw平面外俯仰(仰头,低头问题):pitch 方向相关人脸检测的思路:(a) 使用数据增强的方法,增加各种角度的人脸进行训练,该思路大大的依赖于样本的多样性,同时为了让网络能同时学到这么多的信息,也需要一个较大的网络结构。(b) 使用分治的策略...
2018-05-07 14:16:19 5683 1
原创 Group Normalization
FAIR 团队,吴育昕和恺明大大的新作Group Normalization。主要的优势在于,BN会受到batchsize大小的影响。如果batchsize太小,算出的均值和方差就会不准确,如果太大,显存又可能不够用。而GN算的是channel方向每个group的均值和方差,和batchsize没关系,自然就不受batchsize大小的约束。从上图可以看出,随着batchsize的减小,GN的表现...
2018-03-26 18:40:43 9690 10
原创 年龄识别数据集IMDB-WIKI
ICCV,2015, DEX: Deep EXpectation of apparent age from a single image文章3个insight:(1)分享了IMDB-WIKI数据集,包含524230张从IMDB 和Wikipedia爬取的名人数据图片。具体数据分布如下图: (2)一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对...
2018-03-21 09:02:16 10940 1
原创 空间变换网络STN
出自论文Spatial Transformer NetworksInsight:文章提出的STN的作用类似于传统的矫正的作用。比如人脸识别中,需要先对检测的图片进行关键点检测,然后使用关键点来进行对齐操作。但是这样的一个过程是需要额外进行处理的。但是有了STN后,检测完的人脸,直接就可以做对齐操作。关键的一点就是这个矫正过程是可以进行梯度传导的。想象一下,人脸检测完了,直接使用R
2018-03-10 19:20:40 28247 6
原创 边缘检测之HED
出自论文,Holistically-Nested Edge Detection ,ICCV2015,Marr奖提名,非常值得看的一篇。边缘检测的工作分为以下3个研究方向:(1)传统的检测算子:Sobel ,Canny(2)基于信息理论设计的手工特征:Statistical Edges ,Pb ,gPb(3)基于学习方法设计的手工特征:BEL , Multi-scale ...
2018-03-07 20:48:52 30469 7
原创 基于多输出顺序回归的年龄识别
源自2016 cvpr,Ordinal Regression with Multiple Output CNN for Age Estimation ,文章主要2个贡献:(1)将传统的年龄回归问题转化为多个顺序2分类问题文章网络的整体结构如下图所示: 在经过3个卷积模块后,接入一个全连接层,然后输出K-1个通道的2分类任务。例如这里,Task1预测年龄是否大于1,Tas...
2018-03-06 16:40:17 4844
原创 中文街景数据集CTW
源自论文,Chinese Text in the Wild主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片大小为2048*2048。其中训练集:检测测试集:识别测试集=8:1:1该数据集可以用于自然场景文字的检测和识别2个任务。 Annotation 包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡...
2018-03-05 15:00:54 11005 3
原创 人脸检测之S3FD
该方法出自论文S3FD: Single Shot Scale-invariant Face Detector文章改进点:(1)基于不同layer层的不同scale的anchor策略其中各个卷积层的滑动步长,anchor大小,感受野大小分别如下,其中anchor 的aspect ratio为1:1。这样的设置,主要是由于作者在实际真实数据样本中得出,anchor面
2018-02-25 22:05:58 9141 2
原创 Bootstrapping Face Detection with Hard Negative Examples
这篇文章是小米2016年的FDDB人脸检测第一名的文章。作者万韶华,博士。 文章主要是基于fasterRCNN的框架进行人脸检测。主要优化的地方在于难例挖掘(hard negative mining)。文章中的难例挖掘思路和传统的训练cascade人脸检测的思路很像。先是使用传统的fasterRCNN跑一次,然后将得到的hardexamples输入下一次的网络训练集中,如此迭代的反复训
2018-02-13 15:18:18 1902
原创 场景文字识别Sliding Convolution笔记
出自文章,Scene Text Recognition with Sliding Convolutional Character Models方法优势:(1)相对于基于先分割再识别的方法,该方法避免了复杂的字符分割过程。(2)避免了rnn训练过程中的梯度消失和梯度爆炸的问题,使得训练过程比较容易(3)相对于基于单词识别的方法,该基于字符识别的方法可以识别基于单词的方法不能识别的单词...
2018-02-11 19:42:55 4174 8
原创 基于Faster-RCNN的人脸检测
出自这篇文章,Face Detection with the Faster R-CNN文章主要使用Faster-RCNN框架,使用wider-face训练数据集进行人脸检测的训练。VGG基础框架的faceFaster-RCNN模型大小522M。 安装测试:git clone --recursive https://github.com/playerkk/face-py-faster-rcnn.gi...
2018-02-11 12:29:27 6727 6
原创 DenseNet解读
Densely Connected Convolutional Networks ,作者清华姚班的刘壮,获得cvpr 2017 best paper。非常值得阅读。DenseNet优势:(1)解决了深层网络的梯度消失问题(2)加强了特征的传播(3)鼓励特征重用(4)减少了模型参数DenseNet的网络基本结构如上图所示,主要包含DenseBlock和tr
2018-02-06 16:53:04 18119
原创 人脸检测之FaceBoxes
出自李子青老师组的作品,FaceBoxes: A CPU Real-time Face Detector with High Accuracy 文章整体创新分为3个部分:(1)RDCL模块在这个模块中,卷积的滑动步长是很大,属于比较稀疏的滑动卷积。其中conv1滑动步长为4,使得feature map缩小1/4,conv2使得滑动步长为2,使得feature map缩小1...
2018-01-21 14:41:36 3945 1
原创 人脸检测之SSH(Single Stage Headless)
文章出自2017 ICCV,SSH: Single Stage Headless Face Detector感觉SSH最大的特色就是尺度不相关性(scale-invariant),像MTCNN这样的网络在预测的时候,是通过一个for循环输入不同大小scale的图片进行预测再NMS,而SSH只需要一遍forward就可以搞定。实现的途径就是对VGG不同的卷积输出层做了3个分支(M1,M2
2018-01-19 12:15:43 6629 1
原创 wiki中英文语料处理
Wiki官方提供了下载链接:https://dumps.wikimedia.org/zhwiki/latest/本文处理的中文wiki:zhwiki-latest-pages-articles.xml.bz2本文处理的英文wiki:enwiki-latest-pages-articles.xml.bz21,数据抽取,将*.xml.bz2转为可编辑txt#process_wiki.py# -*- ...
2018-01-13 07:53:14 8037 7
原创 tfrecords +tfdata,2种方式训练mnist
TFRecords是tensorflow存储数据的一种二进制文件,能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件,类似于caffe中的LMDB和LvevelDB,极大的提高了IO吞吐。TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据, 将数据填入到Ex...
2018-01-10 20:42:42 2923
原创 VGG Face数据集多线程下载
官方链接:http://www.robots.ox.ac.uk/~vgg/data/vgg_face/首先去官网下载vgg_face_dataset.tar.gzpython3下载程序:#!/usr/bin/python3#-*- coding: utf-8 -*-import sysimport osimport threadingimport socketimport
2018-01-06 21:56:43 8086 2
原创 EAST: An Efficient and Accurate Scene Text Detector
论文:An Efficient and Accurate Scene Text Detectorgithub:https://github.com/argman/EAST旷世科技在CVPR2017的作品优势:提供了方向信息,可以检测各个方向的文本缺点:对较长的文本检测效果不好,感受野不够长网络结构:整体网络结构分为3个部分(1) 特征提取层...
2018-01-06 08:21:36 14745 37
原创 正负样本不平衡处理方法总结
1, Bootstrapping,hard negative mining最原始的一种方法,主要使用在传统的机器学习方法中。比如,训练随机森林,对于每一个树就是采样booststraping方法采样,也算是随机森林的其中一个随机性表现。再比如bagging方法,也是基于该有放回重采样方法。比如,SVM分类中去掉那些离分界线较远的样本,只保留离分界线较近的样本。2, heurist...
2017-12-29 12:08:53 45430 5
原创 Python web api工具:uWSGI
uWSGI的主要特点如下:1,超快的性能。2,低内存占用(实测为apache2的mod_wsgi的一半左右)。3,多app管理。4,详尽的日志功能(可以用来分析app性能和瓶颈)。5,高度可定制(内存大小限制,服务一定次数后重启等)。安装:apt-get install build-essential python-devpip3 install uwsgi
2017-12-28 16:23:15 926
原创 Python格式化工具yapf
tensorflow中使用的格式化工具,支持autopep8, pep8ify 官网:https://github.com/google/yapf安装:pip3 install yapf参数:-p:使用多线程--style:chromium保持80列换行,indent_width,前面4个空格-i:直接在原文件修改,inplace操作-r:递归的
2017-12-26 16:54:54 8345
原创 linux定时任务crontab
安装crontab:yum install crontabs查看crond服务:service crond status启动crond服务:service crond start关闭crond服务:service crond stop重启crond服务:service crond restart重新载入crond服务配置:service crond reload查看cron
2017-12-25 11:53:31 425
原创 tensorflow优化
源码位置:tensorflow/python/toolstensorflow/tools/quantizationbin位置:bazel-bin/tensorflow/python/toolsbazel-bin/tensorflow/tools/输出pb类型graph:from tensorflow.python.framework import gra
2017-12-19 19:43:30 3942 10
原创 压力测试siege
siege是一款开源的压力测试工具,可以根据配置对一个WEB站点进行多用户的并发访问,记录每个用户所有请求过程的相应时间,并在一定数量的并发访问下重复进行。安装:官网下载siege-4.0.4.tar.gz:https://www.joedog.org/siege-faq/tar -xvfsiege-4.0.4.tar.gzcd siege-4.0.4./configu
2017-12-19 19:36:39 1618
原创 指数滑动平均(ExponentialMovingAverage)EMA
EMA被广泛的应用在深度学习的BN层中,RMSprop,adadelta,adam等梯度下降方法tf.train.ExponentialMovingAverage函数定义tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型,他使用指数衰减来计算变量的移动平均值。tf.train.ExponentialMovingA
2017-12-10 21:23:49 20789 3
原创 KERAS_技巧
微调Fine_tune:导入keras标准模型:model_pretrained= ResNet50(weights='imagenet', include_top=False, input_shape=(768, 768, 3))或者导入自己训练的模型:model_pretrained=load_model(“**.hdf5”)以上这个模型默认有初始化权值mo...
2017-11-20 17:41:36 6509 1
2014facebookDeepLearningforVision:TricksoftheTrade.pdf
2017-03-02
VOC2007xml.zip
2016-12-02
CarFace-Detection-Adaboost.zip
2017-09-13
( libboost.zip )
2017-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人