自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

年轻即出发,

不努力,拿什么说明天

  • 博客(314)
  • 资源 (92)
  • 收藏
  • 关注

原创 图像超分辨之RDN(Residual Dense Network)

 论文:Residual Dense Network for Image Super-Resolution Github:https://github.com/yulunzhang/RDNhttps://github.com/hengchuan/RDN-TensorFlow 整体结构: RDN(Residual Dense Network)主要包含4个模块。...

2018-08-06 19:38:14 38712 6

原创 注意力模型CBAM

论文:CBAM: Convolutional Block Attention Module  Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块。是一种结合了空间(spatial)和通道(channel)的注意力机制模块。相比于senet只关注通道(channel)的注意力机制可以取得更好的效果。 基于传统VGG结构...

2018-08-03 19:27:03 80777 77

原创 识别引擎ocropy->ocropy2->OCRopus3总结

论文:The OCRopus Open Source OCR SystemTransfer Learning for OCRopus Model Training on Early Printed BooksGitHub:https://github.com/tmbdev/ocropyhttps://github.com/tmbdev/ocropy2https://gith...

2018-07-28 17:24:54 7149 24

原创 vim 插件配置

vimrc位置:/etc/vim/vim插件位置:~/.vim也就是/root/.vimVim背景主题位置:/usr/share/vim/vim74Vim基本命令配置:set nu "可以在每一行最前面显示行号set tabstop=4 "tab=4个空格set cursorline "显示行...

2018-07-23 17:21:08 2080

原创 字符识别引擎Calamari总结

论文:Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition Github:https://github.com/Calamari-OCR/calamari依赖:Python3Tensorflow1.8图片预处理:灰度图片 ...

2018-07-18 18:42:50 5780 2

原创 场景文字检测之CTPN

论文:Detecting Text in Natural Image with Connectionist Text Proposal NetworkGithub(caffe版本):https://github.com/tianzhi0549/CTPNGithub(tensorflow版本):https://github.com/eragonruan/text-detection-ctpn...

2018-07-11 17:29:38 9314 9

原创 文本行检测之PixelLink

论文:PixelLink: Detecting Scene Text via Instance Segmentation Github:https://github.com/ZJULearning/pixel_link 整体框架: PixelLink主要基于CNN网络,分别做文本,非文本分类预测和像素的8个方向是否连接预测这2个任务。然后基于Opencv的minAreaRe...

2018-07-07 18:17:37 14558 1

原创 SENet

论文:Squeeze-and-Excitation NetworksGithub:https://github.com/hujie-frank/SENet Momenta ILSVRC 2017 分类任务的冠军,top-5 错误达到2:251% ,相比2016年冠军有∼25% 的准确性提升。 模型整体结构:Ftr函数表示一系列的卷积,池化操作等。其中X代表输入图片,v代表卷积核。Fsq函数代表gl...

2018-07-02 19:49:56 4013

原创 姿态估计之CPN(Cascaded Pyramid Network)

这篇是face++2017年coco keypoint benchmark 数据集冠军的文章。主要提出了基于CPN(Cascaded PyramidNetwork)结构的人体关键点检测框架。Top-downpipeline:整体框架采用Top-down自上而下的检测策略。首先使用行人检测框架,先检测出行人候选框。然后使用本文的CPN网络对每一个检测出来的行人候选框进行人体关键点的回归,进而输出最终...

2018-07-01 00:15:48 26462

原创 目标检测之Light-Head R-CNN

Face++ 2017年的作品。主要基于RFCN的改进,基于2种基础框架backbone得出2种模型。以ResNet101为基础网络的大模型,具有比faster RCNN更高的精度,以类似Xception为基础网络的小模型,比SSD,YOLO更快。 类似Xception的网络结构如下图所示。 下图分析了faster RCNN,RFCN,Light-Head R-CNN,三个...

2018-06-29 20:06:44 6694

原创 MegDet:大mini-batch 检测器

MegDet为face++ 提出的通用检测框架。整体结构为类似于faster RCNN的2层结构,基础网络类似于Resnet50。获得了2017 COCO检测第一名,发表于cvpr 2018。文章主要讲解大mini-batch这个训练技巧,实现了在大mini-batch下的精度提升1.5个点。 小mini-batch的缺点:(1)训练时间太长。(2)小的batch对于b...

2018-06-25 17:49:48 2841

原创 损失函数loss大总结

分类任务loss:二分类交叉熵损失sigmoid_cross_entropy:TensorFlow 接口:tf.losses.sigmoid_cross_entropy( multi_class_labels, logits, weights=1.0, label_smoothing=0, scope=None, loss_c...

2018-06-23 23:29:44 119281 30

原创 端到端的文本检测识别

选自ICCV 2017 澳大利亚阿德莱德大学沈春华老师组的作品Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks 。是目前为止第一篇提出端到端OCR文字检测+识别的文章。 文章主要3点贡献:(1)提出端到端的OCR检测+识别的框架(2)改进的ROI pooling。相比于fasterRCNN中R...

2018-05-21 18:35:27 11680 1

原创 yolov3

Anchor策略:yolov3延续了yolov2的anchor策略,基本没有变化。边框的表示方式通过框的中心坐标bx,by,和框的宽bw,高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图,其中,cx,cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的cell...

2018-05-16 12:23:56 31444 14

原创 使用渐进校准网络(PCN)的实时旋转不变人脸检测

论文为山世光老师组2018 cvpr的作品。 人脸3D变换基础:平面内旋转(左右歪头问题):roll,本人重点讨论的问题平面外左右旋转(正脸,侧脸问题):yaw平面外俯仰(仰头,低头问题):pitch 方向相关人脸检测的思路:(a) 使用数据增强的方法,增加各种角度的人脸进行训练,该思路大大的依赖于样本的多样性,同时为了让网络能同时学到这么多的信息,也需要一个较大的网络结构。(b) 使用分治的策略...

2018-05-07 14:16:19 5683 1

原创 Group Normalization

FAIR 团队,吴育昕和恺明大大的新作Group Normalization。主要的优势在于,BN会受到batchsize大小的影响。如果batchsize太小,算出的均值和方差就会不准确,如果太大,显存又可能不够用。而GN算的是channel方向每个group的均值和方差,和batchsize没关系,自然就不受batchsize大小的约束。从上图可以看出,随着batchsize的减小,GN的表现...

2018-03-26 18:40:43 9690 10

原创 年龄识别数据集IMDB-WIKI

ICCV,2015, DEX: Deep EXpectation of apparent age from a single image文章3个insight:(1)分享了IMDB-WIKI数据集,包含524230张从IMDB 和Wikipedia爬取的名人数据图片。具体数据分布如下图: (2)一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后,对...

2018-03-21 09:02:16 10940 1

原创 空间变换网络STN

出自论文Spatial Transformer NetworksInsight:文章提出的STN的作用类似于传统的矫正的作用。比如人脸识别中,需要先对检测的图片进行关键点检测,然后使用关键点来进行对齐操作。但是这样的一个过程是需要额外进行处理的。但是有了STN后,检测完的人脸,直接就可以做对齐操作。关键的一点就是这个矫正过程是可以进行梯度传导的。想象一下,人脸检测完了,直接使用R

2018-03-10 19:20:40 28247 6

原创 边缘检测之HED

出自论文,Holistically-Nested Edge Detection ,ICCV2015,Marr奖提名,非常值得看的一篇。边缘检测的工作分为以下3个研究方向:(1)传统的检测算子:Sobel ,Canny(2)基于信息理论设计的手工特征:Statistical Edges ,Pb ,gPb(3)基于学习方法设计的手工特征:BEL , Multi-scale ...

2018-03-07 20:48:52 30469 7

原创 基于多输出顺序回归的年龄识别

源自2016 cvpr,Ordinal Regression with Multiple Output CNN for Age Estimation ,文章主要2个贡献:(1)将传统的年龄回归问题转化为多个顺序2分类问题文章网络的整体结构如下图所示: 在经过3个卷积模块后,接入一个全连接层,然后输出K-1个通道的2分类任务。例如这里,Task1预测年龄是否大于1,Tas...

2018-03-06 16:40:17 4844

原创 中文街景数据集CTW

源自论文,Chinese Text in the Wild主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片大小为2048*2048。其中训练集:检测测试集:识别测试集=8:1:1该数据集可以用于自然场景文字的检测和识别2个任务。 Annotation 包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡...

2018-03-05 15:00:54 11005 3

原创 人脸检测之S3FD

该方法出自论文S3FD: Single Shot Scale-invariant Face Detector文章改进点:(1)基于不同layer层的不同scale的anchor策略其中各个卷积层的滑动步长,anchor大小,感受野大小分别如下,其中anchor 的aspect ratio为1:1。这样的设置,主要是由于作者在实际真实数据样本中得出,anchor面

2018-02-25 22:05:58 9141 2

原创 Bootstrapping Face Detection with Hard Negative Examples

这篇文章是小米2016年的FDDB人脸检测第一名的文章。作者万韶华,博士。 文章主要是基于fasterRCNN的框架进行人脸检测。主要优化的地方在于难例挖掘(hard negative mining)。文章中的难例挖掘思路和传统的训练cascade人脸检测的思路很像。先是使用传统的fasterRCNN跑一次,然后将得到的hardexamples输入下一次的网络训练集中,如此迭代的反复训

2018-02-13 15:18:18 1902

原创 场景文字识别Sliding Convolution笔记

出自文章,Scene Text Recognition with Sliding Convolutional Character Models方法优势:(1)相对于基于先分割再识别的方法,该方法避免了复杂的字符分割过程。(2)避免了rnn训练过程中的梯度消失和梯度爆炸的问题,使得训练过程比较容易(3)相对于基于单词识别的方法,该基于字符识别的方法可以识别基于单词的方法不能识别的单词...

2018-02-11 19:42:55 4174 8

原创 基于Faster-RCNN的人脸检测

出自这篇文章,Face Detection with the Faster R-CNN文章主要使用Faster-RCNN框架,使用wider-face训练数据集进行人脸检测的训练。VGG基础框架的faceFaster-RCNN模型大小522M。 安装测试:git clone --recursive https://github.com/playerkk/face-py-faster-rcnn.gi...

2018-02-11 12:29:27 6727 6

原创 DenseNet解读

Densely Connected Convolutional Networks ,作者清华姚班的刘壮,获得cvpr 2017 best paper。非常值得阅读。DenseNet优势:(1)解决了深层网络的梯度消失问题(2)加强了特征的传播(3)鼓励特征重用(4)减少了模型参数DenseNet的网络基本结构如上图所示,主要包含DenseBlock和tr

2018-02-06 16:53:04 18119

原创 人脸检测之FaceBoxes

 出自李子青老师组的作品,FaceBoxes: A CPU Real-time Face Detector with High Accuracy 文章整体创新分为3个部分:(1)RDCL模块在这个模块中,卷积的滑动步长是很大,属于比较稀疏的滑动卷积。其中conv1滑动步长为4,使得feature map缩小1/4,conv2使得滑动步长为2,使得feature map缩小1...

2018-01-21 14:41:36 3945 1

原创 人脸检测之SSH(Single Stage Headless)

文章出自2017 ICCV,SSH: Single Stage Headless Face Detector感觉SSH最大的特色就是尺度不相关性(scale-invariant),像MTCNN这样的网络在预测的时候,是通过一个for循环输入不同大小scale的图片进行预测再NMS,而SSH只需要一遍forward就可以搞定。实现的途径就是对VGG不同的卷积输出层做了3个分支(M1,M2

2018-01-19 12:15:43 6629 1

原创 wiki中英文语料处理

Wiki官方提供了下载链接:https://dumps.wikimedia.org/zhwiki/latest/本文处理的中文wiki:zhwiki-latest-pages-articles.xml.bz2本文处理的英文wiki:enwiki-latest-pages-articles.xml.bz21,数据抽取,将*.xml.bz2转为可编辑txt#process_wiki.py# -*- ...

2018-01-13 07:53:14 8037 7

原创 tfrecords +tfdata,2种方式训练mnist

 TFRecords是tensorflow存储数据的一种二进制文件,能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件,类似于caffe中的LMDB和LvevelDB,极大的提高了IO吞吐。TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据, 将数据填入到Ex...

2018-01-10 20:42:42 2923

原创 VGG Face数据集多线程下载

官方链接:http://www.robots.ox.ac.uk/~vgg/data/vgg_face/首先去官网下载vgg_face_dataset.tar.gzpython3下载程序:#!/usr/bin/python3#-*- coding: utf-8 -*-import sysimport osimport threadingimport socketimport

2018-01-06 21:56:43 8086 2

原创 EAST: An Efficient and Accurate Scene Text Detector

论文:An Efficient and Accurate Scene Text Detectorgithub:https://github.com/argman/EAST旷世科技在CVPR2017的作品优势:提供了方向信息,可以检测各个方向的文本缺点:对较长的文本检测效果不好,感受野不够长网络结构:整体网络结构分为3个部分(1) 特征提取层...

2018-01-06 08:21:36 14745 37

原创 正负样本不平衡处理方法总结

1, Bootstrapping,hard negative mining最原始的一种方法,主要使用在传统的机器学习方法中。比如,训练随机森林,对于每一个树就是采样booststraping方法采样,也算是随机森林的其中一个随机性表现。再比如bagging方法,也是基于该有放回重采样方法。比如,SVM分类中去掉那些离分界线较远的样本,只保留离分界线较近的样本。2, heurist...

2017-12-29 12:08:53 45430 5

原创 Python web api工具:uWSGI

uWSGI的主要特点如下:1,超快的性能。2,低内存占用(实测为apache2的mod_wsgi的一半左右)。3,多app管理。4,详尽的日志功能(可以用来分析app性能和瓶颈)。5,高度可定制(内存大小限制,服务一定次数后重启等)。安装:apt-get install build-essential python-devpip3 install uwsgi

2017-12-28 16:23:15 926

原创 Python格式化工具yapf

tensorflow中使用的格式化工具,支持autopep8, pep8ify 官网:https://github.com/google/yapf安装:pip3 install yapf参数:-p:使用多线程--style:chromium保持80列换行,indent_width,前面4个空格-i:直接在原文件修改,inplace操作-r:递归的

2017-12-26 16:54:54 8345

原创 linux定时任务crontab

安装crontab:yum install crontabs查看crond服务:service crond status启动crond服务:service crond start关闭crond服务:service crond stop重启crond服务:service crond restart重新载入crond服务配置:service crond reload查看cron

2017-12-25 11:53:31 425

原创 tensorflow优化

源码位置:tensorflow/python/toolstensorflow/tools/quantizationbin位置:bazel-bin/tensorflow/python/toolsbazel-bin/tensorflow/tools/输出pb类型graph:from tensorflow.python.framework import gra

2017-12-19 19:43:30 3942 10

原创 压力测试siege

siege是一款开源的压力测试工具,可以根据配置对一个WEB站点进行多用户的并发访问,记录每个用户所有请求过程的相应时间,并在一定数量的并发访问下重复进行。安装:官网下载siege-4.0.4.tar.gz:https://www.joedog.org/siege-faq/tar -xvfsiege-4.0.4.tar.gzcd siege-4.0.4./configu

2017-12-19 19:36:39 1618

原创 指数滑动平均(ExponentialMovingAverage)EMA

EMA被广泛的应用在深度学习的BN层中,RMSprop,adadelta,adam等梯度下降方法tf.train.ExponentialMovingAverage函数定义tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型,他使用指数衰减来计算变量的移动平均值。tf.train.ExponentialMovingA

2017-12-10 21:23:49 20789 3

原创 KERAS_技巧

微调Fine_tune:导入keras标准模型:model_pretrained= ResNet50(weights='imagenet', include_top=False, input_shape=(768, 768, 3))或者导入自己训练的模型:model_pretrained=load_model(“**.hdf5”)以上这个模型默认有初始化权值mo...

2017-11-20 17:41:36 6509 1

( SEDIM.zip )

基于SEDMI方法实现的视频摘要,video synopsis。

2017-05-12

deepCrowd.zip

deepCrowdNet自己训练的caffemodel和deploy

2017-04-07

UCF_CC_50

UCF_CC_50数据集,包含图片,json,mat

2017-03-31

proto.zip

lightcnn 训练的proto

2017-03-22

算法导论_原书第3版_CHS.pdf

算法导论,第三版,完整版本,带目录,高清,可编辑

2017-03-03

2014facebookDeepLearningforVision:TricksoftheTrade.pdf

2014 cvpr上,face book Deep Learning for Vision:Tricks of theTrade,贾杨清推荐

2017-03-02

open_nsfw.zip

基于c++和caffe实现了色情识别,使用了resnet50,效果很赞

2017-02-10

lenet_test.zip

基于c++实现的LeNet,可以基于自己鼠标手写的字符进行识别,效果很好,原验证集99%的识别率

2017-02-07

ESR.zip

ESR人脸对齐,c++代码,包含了论文,29个点的Model,COFW数据集,训练和测试的代码都封装进去,运行环境vs2010,opencv。

2017-01-05

tsinghua严版教材讲义.ppt

清华大学严蔚敏数据结构ppt

2016-12-30

数据结构.zip (ppt)

数据结构ppt

2016-12-30

testLFW.zip

基于matlab的对LFW识别率的测试,可以直接运行,附全部数据,包含caffe-face的特征矩阵

2016-12-26

dlib-18.17.tar.bz2

dlib18.17库,支持vs2013,

2016-12-21

dlib_face.zip

基于dlib实现的人脸检测和对齐,VS2013可以直接运行。

2016-12-21

xml_io_tools_2010_11_05.zip

xml_io_tools,可以实现xml文件的解析,只需一条语句即可,方便好用

2016-12-15

VOC2007xml.zip

matlab 版的程序,2个,一个可以实现将voc数据集的物体信息转化为XML格式,另一个可以实现将数据分为train,train_val,val,test,4个类别

2016-12-02

SSD_中文版.docx

ssd 中文翻译,有助于刚入门的童鞋理解

2016-12-01

libboost_regex.zip

libboost_regex和caffe-windows中的属于同一个版本,boost.1.59.0.0

2016-11-25

waifu2x-converter-cpp.zip

火火火火的waifu2x,运行环境win7+vs2013+opencv2.4.12,你值得拥有,可以直接点击sln运行。

2016-11-22

MTCNN_face_detection_alignment.zip

MTCNN的matlab程序,稍加改动,据说比作者的好点

2016-10-13

op.zip

基于opencv的java api方式的调用

2020-03-26

mtcnn.zip

基于andorid studio 3.6的ncnn版本的mtcnn人脸检测

2020-03-17

OpenCVDemo.zip

基于android studio 3.6的opencv的第二种调用方式

2020-03-16

OpenCVDemo.zip

基于android studio 3.6,ndk14b的opencv代码。demo级别的参考。。。。。。。。。。

2020-03-14

OPENPOSE.zip

openpose的模型文件,包含body25,body19,coco,mpi,还有训练文件,

2019-08-27

track.7z跟踪的顶顶顶顶goturn模型

跟踪goturn模型,opencv自带,可以实现自适应的跟踪。

2019-06-15

基于模板的文字识别结果结构化处理技术

基于模板的文字识别结果结构化处理技术,基于模板的文字识别结果结构化处理技术

2019-05-04

Xmanager.zip

Xmanager.Enterprise.5.0815.rar,破解版本,欢迎使用

2019-04-28

FTPServer.zip

ftp 搭建工具,可以简单的部署windows下的ftp server...

2018-12-12

CNN_book_weixs魏秀参.rar

cnn 总结,写的很棒,值得学习推荐。 解析卷积神经网络 ——深度学习实践手册

2018-05-18

( face-py-faster-rcnn.zip )

基于faster rcnn 的人脸检测,带训练好模型。以及训练程序和测试程序

2018-02-11

( caffe-facebox-vs2013.7z )

facebox人脸检测c++实现,修改的ssd,效果一般,仅供学习

2018-01-21

( mnist_tfrecords.rar )

使用tfrecords格式数据训练mnist神经网络,使用tensorflow实现

2018-01-10

( caf_face_detection.7z )

基于深度学习的人脸检测,c++,带模型,自动更新学习模型,。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-18

CarFace-Detection-Adaboost.zip

基于opencv训练的cascade的车脸检测,带2个模型,vs2013下可以直接运行,对卡口车脸具有较好的识别效果,相应速度快。

2017-09-13

( libboost.zip )

caffe中缺少的libboost库文件,libboost_date_time-vc140-mt-1_61.lib,libboost_filesystem-vc140-mt-1_61.lib

2017-09-03

( cvpr-torch.pdf )

torch7官方文档

2017-08-14

( caffe-windows.zip )

windows版本的caffe,早期版本,里面有windows文件夹

2017-08-10

visualize.zip

将模型的weights和featuremap的可视化,c++实现

2017-07-11

( convert_imageset.cpp )

将caffe转化为支持多标签

2017-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除