watersink-CSDN博客

原创图像超分辨之RDN（Residual Dense Network）

论文：Residual Dense Network for Image Super-Resolution Github：https://github.com/yulunzhang/RDNhttps://github.com/hengchuan/RDN-TensorFlow 整体结构： RDN（Residual Dense Network）主要包含4个模块。...

2018-08-06 19:38:14 38712 6

原创注意力模型CBAM

论文：CBAM: Convolutional Block Attention Module Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块。是一种结合了空间（spatial）和通道（channel）的注意力机制模块。相比于senet只关注通道（channel）的注意力机制可以取得更好的效果。基于传统VGG结构...

2018-08-03 19:27:03 80777 77

原创识别引擎ocropy->ocropy2->OCRopus3总结

论文：The OCRopus Open Source OCR SystemTransfer Learning for OCRopus Model Training on Early Printed BooksGitHub：https://github.com/tmbdev/ocropyhttps://github.com/tmbdev/ocropy2https://gith...

2018-07-28 17:24:54 7149 24

原创 vim 插件配置

vimrc位置：/etc/vim/vim插件位置：~/.vim也就是/root/.vimVim背景主题位置：/usr/share/vim/vim74Vim基本命令配置：set nu "可以在每一行最前面显示行号set tabstop=4 "tab=4个空格set cursorline "显示行...

2018-07-23 17:21:08 2080

原创字符识别引擎Calamari总结

论文：Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition Github：https://github.com/Calamari-OCR/calamari依赖：Python3Tensorflow1.8图片预处理：灰度图片 ...

2018-07-18 18:42:50 5780 2

原创场景文字检测之CTPN

论文：Detecting Text in Natural Image with Connectionist Text Proposal NetworkGithub（caffe版本）:https://github.com/tianzhi0549/CTPNGithub（tensorflow版本）:https://github.com/eragonruan/text-detection-ctpn...

2018-07-11 17:29:38 9314 9

原创文本行检测之PixelLink

论文：PixelLink: Detecting Scene Text via Instance Segmentation Github：https://github.com/ZJULearning/pixel_link 整体框架： PixelLink主要基于CNN网络，分别做文本，非文本分类预测和像素的8个方向是否连接预测这2个任务。然后基于Opencv的minAreaRe...

2018-07-07 18:17:37 14558 1

论文：Squeeze-and-Excitation NetworksGithub：https://github.com/hujie-frank/SENet Momenta ILSVRC 2017 分类任务的冠军，top-5 错误达到2:251% ，相比2016年冠军有∼25% 的准确性提升。模型整体结构：Ftr函数表示一系列的卷积，池化操作等。其中X代表输入图片，v代表卷积核。Fsq函数代表gl...

2018-07-02 19:49:56 4013

原创姿态估计之CPN(Cascaded Pyramid Network)

这篇是face++2017年coco keypoint benchmark 数据集冠军的文章。主要提出了基于CPN(Cascaded PyramidNetwork)结构的人体关键点检测框架。Top-downpipeline：整体框架采用Top-down自上而下的检测策略。首先使用行人检测框架，先检测出行人候选框。然后使用本文的CPN网络对每一个检测出来的行人候选框进行人体关键点的回归，进而输出最终...

2018-07-01 00:15:48 26462

原创目标检测之Light-Head R-CNN

Face++ 2017年的作品。主要基于RFCN的改进，基于2种基础框架backbone得出2种模型。以ResNet101为基础网络的大模型，具有比faster RCNN更高的精度，以类似Xception为基础网络的小模型，比SSD，YOLO更快。类似Xception的网络结构如下图所示。下图分析了faster RCNN，RFCN，Light-Head R-CNN，三个...

2018-06-29 20:06:44 6694

原创 MegDet：大mini-batch 检测器

MegDet为face++ 提出的通用检测框架。整体结构为类似于faster RCNN的2层结构，基础网络类似于Resnet50。获得了2017 COCO检测第一名，发表于cvpr 2018。文章主要讲解大mini-batch这个训练技巧，实现了在大mini-batch下的精度提升1.5个点。小mini-batch的缺点：（1）训练时间太长。（2）小的batch对于b...

2018-06-25 17:49:48 2841

原创损失函数loss大总结

分类任务loss:二分类交叉熵损失sigmoid_cross_entropy：TensorFlow 接口：tf.losses.sigmoid_cross_entropy( multi_class_labels, logits, weights=1.0, label_smoothing=0, scope=None, loss_c...

2018-06-23 23:29:44 119281 30

原创端到端的文本检测识别

选自ICCV 2017 澳大利亚阿德莱德大学沈春华老师组的作品Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks 。是目前为止第一篇提出端到端OCR文字检测+识别的文章。文章主要3点贡献：（1）提出端到端的OCR检测+识别的框架（2）改进的ROI pooling。相比于fasterRCNN中R...

2018-05-21 18:35:27 11680 1

原创 yolov3

Anchor策略：yolov3延续了yolov2的anchor策略，基本没有变化。边框的表示方式通过框的中心坐标bx,by，和框的宽bw，高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图，其中，cx，cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的cell...

2018-05-16 12:23:56 31444 14

原创使用渐进校准网络(PCN)的实时旋转不变人脸检测

论文为山世光老师组2018 cvpr的作品。人脸3D变换基础：平面内旋转(左右歪头问题)：roll，本人重点讨论的问题平面外左右旋转(正脸，侧脸问题)：yaw平面外俯仰(仰头，低头问题)：pitch 方向相关人脸检测的思路：(a) 使用数据增强的方法，增加各种角度的人脸进行训练，该思路大大的依赖于样本的多样性，同时为了让网络能同时学到这么多的信息，也需要一个较大的网络结构。(b) 使用分治的策略...

2018-05-07 14:16:19 5683 1

原创 Group Normalization

FAIR 团队，吴育昕和恺明大大的新作Group Normalization。主要的优势在于，BN会受到batchsize大小的影响。如果batchsize太小，算出的均值和方差就会不准确，如果太大，显存又可能不够用。而GN算的是channel方向每个group的均值和方差，和batchsize没关系，自然就不受batchsize大小的约束。从上图可以看出，随着batchsize的减小，GN的表现...

2018-03-26 18:40:43 9690 10

原创年龄识别数据集IMDB-WIKI

ICCV,2015, DEX: Deep EXpectation of apparent age from a single image文章3个insight：（1）分享了IMDB-WIKI数据集，包含524230张从IMDB 和Wikipedia爬取的名人数据图片。具体数据分布如下图：（2）一个新颖的化回归为分类的年龄算法。本质就是在0-100之间的101类分类后，对...

2018-03-21 09:02:16 10940 1

原创空间变换网络STN

出自论文Spatial Transformer NetworksInsight：文章提出的STN的作用类似于传统的矫正的作用。比如人脸识别中，需要先对检测的图片进行关键点检测，然后使用关键点来进行对齐操作。但是这样的一个过程是需要额外进行处理的。但是有了STN后，检测完的人脸，直接就可以做对齐操作。关键的一点就是这个矫正过程是可以进行梯度传导的。想象一下，人脸检测完了，直接使用R

2018-03-10 19:20:40 28247 6

原创边缘检测之HED

出自论文，Holistically-Nested Edge Detection ，ICCV2015,Marr奖提名，非常值得看的一篇。边缘检测的工作分为以下3个研究方向：(1)传统的检测算子：Sobel ,Canny(2)基于信息理论设计的手工特征：Statistical Edges ,Pb ,gPb(3)基于学习方法设计的手工特征：BEL , Multi-scale ...

2018-03-07 20:48:52 30469 7

原创基于多输出顺序回归的年龄识别

源自2016 cvpr，Ordinal Regression with Multiple Output CNN for Age Estimation ，文章主要2个贡献：（1）将传统的年龄回归问题转化为多个顺序2分类问题文章网络的整体结构如下图所示：在经过3个卷积模块后，接入一个全连接层，然后输出K-1个通道的2分类任务。例如这里，Task1预测年龄是否大于1，Tas...

2018-03-06 16:40:17 4844

原创中文街景数据集CTW

源自论文，Chinese Text in the Wild主要包含32285张图片，共计1018402个汉字，3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片大小为2048*2048。其中训练集：检测测试集：识别测试集=8：1：1该数据集可以用于自然场景文字的检测和识别2个任务。 Annotation 包括：（1）每个汉字的检测框（2）一行汉字的检测框（3）是否遮挡...

2018-03-05 15:00:54 11005 3

原创人脸检测之S3FD

该方法出自论文S3FD: Single Shot Scale-invariant Face Detector文章改进点：（1）基于不同layer层的不同scale的anchor策略其中各个卷积层的滑动步长，anchor大小，感受野大小分别如下，其中anchor 的aspect ratio为1:1。这样的设置，主要是由于作者在实际真实数据样本中得出，anchor面

2018-02-25 22:05:58 9141 2

原创 Bootstrapping Face Detection with Hard Negative Examples

这篇文章是小米2016年的FDDB人脸检测第一名的文章。作者万韶华，博士。文章主要是基于fasterRCNN的框架进行人脸检测。主要优化的地方在于难例挖掘（hard negative mining）。文章中的难例挖掘思路和传统的训练cascade人脸检测的思路很像。先是使用传统的fasterRCNN跑一次，然后将得到的hardexamples输入下一次的网络训练集中，如此迭代的反复训

2018-02-13 15:18:18 1902

原创场景文字识别Sliding Convolution笔记

出自文章，Scene Text Recognition with Sliding Convolutional Character Models方法优势：（1）相对于基于先分割再识别的方法，该方法避免了复杂的字符分割过程。（2）避免了rnn训练过程中的梯度消失和梯度爆炸的问题，使得训练过程比较容易（3）相对于基于单词识别的方法，该基于字符识别的方法可以识别基于单词的方法不能识别的单词...

2018-02-11 19:42:55 4174 8

原创基于Faster-RCNN的人脸检测

出自这篇文章，Face Detection with the Faster R-CNN文章主要使用Faster-RCNN框架，使用wider-face训练数据集进行人脸检测的训练。VGG基础框架的faceFaster-RCNN模型大小522M。安装测试：git clone --recursive https://github.com/playerkk/face-py-faster-rcnn.gi...

2018-02-11 12:29:27 6727 6

原创 DenseNet解读

Densely Connected Convolutional Networks ,作者清华姚班的刘壮，获得cvpr 2017 best paper。非常值得阅读。DenseNet优势：（1）解决了深层网络的梯度消失问题（2）加强了特征的传播（3）鼓励特征重用（4）减少了模型参数DenseNet的网络基本结构如上图所示，主要包含DenseBlock和tr

2018-02-06 16:53:04 18119

原创人脸检测之FaceBoxes

出自李子青老师组的作品，FaceBoxes: A CPU Real-time Face Detector with High Accuracy 文章整体创新分为3个部分：(1)RDCL模块在这个模块中，卷积的滑动步长是很大，属于比较稀疏的滑动卷积。其中conv1滑动步长为4，使得feature map缩小1/4，conv2使得滑动步长为2，使得feature map缩小1...

2018-01-21 14:41:36 3945 1

原创人脸检测之SSH(Single Stage Headless)

文章出自2017 ICCV，SSH: Single Stage Headless Face Detector感觉SSH最大的特色就是尺度不相关性（scale-invariant），像MTCNN这样的网络在预测的时候，是通过一个for循环输入不同大小scale的图片进行预测再NMS，而SSH只需要一遍forward就可以搞定。实现的途径就是对VGG不同的卷积输出层做了3个分支（M1,M2

2018-01-19 12:15:43 6629 1

原创 wiki中英文语料处理

Wiki官方提供了下载链接：https://dumps.wikimedia.org/zhwiki/latest/本文处理的中文wiki:zhwiki-latest-pages-articles.xml.bz2本文处理的英文wiki:enwiki-latest-pages-articles.xml.bz21，数据抽取，将*.xml.bz2转为可编辑txt#process_wiki.py# -*- ...

2018-01-13 07:53:14 8037 7

原创 tfrecords +tfdata，2种方式训练mnist

TFRecords是tensorflow存储数据的一种二进制文件，能更好的利用内存，更方便复制和移动，并且不需要单独的标签文件，类似于caffe中的LMDB和LvevelDB，极大的提高了IO吞吐。TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据，将数据填入到Ex...

2018-01-10 20:42:42 2923

原创 VGG Face数据集多线程下载

官方链接：http://www.robots.ox.ac.uk/~vgg/data/vgg_face/首先去官网下载vgg_face_dataset.tar.gzpython3下载程序：#!/usr/bin/python3#-*- coding: utf-8 -*-import sysimport osimport threadingimport socketimport

2018-01-06 21:56:43 8086 2

原创 EAST: An Efficient and Accurate Scene Text Detector

论文：An Efficient and Accurate Scene Text Detectorgithub:https://github.com/argman/EAST旷世科技在CVPR2017的作品优势：提供了方向信息，可以检测各个方向的文本缺点：对较长的文本检测效果不好，感受野不够长网络结构：整体网络结构分为3个部分(1) 特征提取层...

2018-01-06 08:21:36 14745 37

原创正负样本不平衡处理方法总结

1， Bootstrapping，hard negative mining最原始的一种方法，主要使用在传统的机器学习方法中。比如，训练随机森林，对于每一个树就是采样booststraping方法采样，也算是随机森林的其中一个随机性表现。再比如bagging方法，也是基于该有放回重采样方法。比如，SVM分类中去掉那些离分界线较远的样本，只保留离分界线较近的样本。2， heurist...

2017-12-29 12:08:53 45430 5

原创 Python web api工具:uWSGI

uWSGI的主要特点如下：1，超快的性能。2，低内存占用（实测为apache2的mod_wsgi的一半左右）。3，多app管理。4，详尽的日志功能（可以用来分析app性能和瓶颈）。5，高度可定制（内存大小限制，服务一定次数后重启等）。安装：apt-get install build-essential python-devpip3 install uwsgi

2017-12-28 16:23:15 926

原创 Python格式化工具yapf

tensorflow中使用的格式化工具，支持autopep8, pep8ify 官网：https://github.com/google/yapf安装：pip3 install yapf参数：-p：使用多线程--style：chromium保持80列换行，indent_width，前面4个空格-i：直接在原文件修改，inplace操作-r：递归的

2017-12-26 16:54:54 8345

原创 linux定时任务crontab

安装crontab：yum install crontabs查看crond服务：service crond status启动crond服务：service crond start关闭crond服务：service crond stop重启crond服务：service crond restart重新载入crond服务配置：service crond reload查看cron

2017-12-25 11:53:31 425

原创 tensorflow优化

源码位置：tensorflow/python/toolstensorflow/tools/quantizationbin位置：bazel-bin/tensorflow/python/toolsbazel-bin/tensorflow/tools/输出pb类型graph：from tensorflow.python.framework import gra

2017-12-19 19:43:30 3942 10

原创压力测试siege

siege是一款开源的压力测试工具，可以根据配置对一个WEB站点进行多用户的并发访问，记录每个用户所有请求过程的相应时间，并在一定数量的并发访问下重复进行。安装：官网下载siege-4.0.4.tar.gz：https://www.joedog.org/siege-faq/tar -xvfsiege-4.0.4.tar.gzcd siege-4.0.4./configu

2017-12-19 19:36:39 1618

原创指数滑动平均(ExponentialMovingAverage)EMA

EMA被广泛的应用在深度学习的BN层中，RMSprop，adadelta，adam等梯度下降方法tf.train.ExponentialMovingAverage函数定义tensorflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型，他使用指数衰减来计算变量的移动平均值。tf.train.ExponentialMovingA

2017-12-10 21:23:49 20789 3

原创 KERAS_技巧

微调Fine_tune:导入keras标准模型：model_pretrained= ResNet50(weights='imagenet', include_top=False, input_shape=(768, 768, 3))或者导入自己训练的模型：model_pretrained=load_model(“**.hdf5”)以上这个模型默认有初始化权值mo...

2017-11-20 17:41:36 6509 1

( SEDIM.zip )

基于SEDMI方法实现的视频摘要，video synopsis。

2017-05-12

deepCrowd.zip

deepCrowdNet自己训练的caffemodel和deploy

2017-04-07

UCF_CC_50

UCF_CC_50数据集，包含图片，json，mat

2017-03-31

proto.zip

lightcnn 训练的proto

2017-03-22

算法导论_原书第3版_CHS.pdf

算法导论，第三版，完整版本，带目录，高清，可编辑

2017-03-03

2014facebookDeepLearningforVision：TricksoftheTrade.pdf

2014 cvpr上，face book Deep Learning for Vision：Tricks of theTrade，贾杨清推荐

2017-03-02

open_nsfw.zip

基于c++和caffe实现了色情识别，使用了resnet50,效果很赞

2017-02-10

lenet_test.zip

基于c++实现的LeNet，可以基于自己鼠标手写的字符进行识别，效果很好，原验证集99%的识别率

2017-02-07

ESR.zip

ESR人脸对齐，c++代码，包含了论文，29个点的Model，COFW数据集，训练和测试的代码都封装进去，运行环境vs2010，opencv。

2017-01-05

tsinghua严版教材讲义.ppt

清华大学严蔚敏数据结构ppt

2016-12-30

数据结构.zip （ppt）

数据结构ppt

2016-12-30

testLFW.zip

基于matlab的对LFW识别率的测试，可以直接运行，附全部数据，包含caffe-face的特征矩阵

2016-12-26

dlib-18.17.tar.bz2

dlib18.17库，支持vs2013，

2016-12-21

dlib_face.zip

基于dlib实现的人脸检测和对齐，VS2013可以直接运行。

2016-12-21

xml_io_tools_2010_11_05.zip

xml_io_tools，可以实现xml文件的解析，只需一条语句即可，方便好用

2016-12-15

VOC2007xml.zip

matlab 版的程序，2个，一个可以实现将voc数据集的物体信息转化为XML格式，另一个可以实现将数据分为train，train_val，val，test，4个类别

2016-12-02

SSD_中文版.docx

ssd 中文翻译，有助于刚入门的童鞋理解

2016-12-01

libboost_regex.zip

libboost_regex和caffe-windows中的属于同一个版本，boost.1.59.0.0

2016-11-25

waifu2x-converter-cpp.zip

火火火火的waifu2x，运行环境win7+vs2013+opencv2.4.12，你值得拥有，可以直接点击sln运行。

2016-11-22

MTCNN_face_detection_alignment.zip

ＭＴＣＮＮ的ｍａｔｌａｂ程序，稍加改动，据说比作者的好点

2016-10-13

op.zip

基于opencv的java api方式的调用

2020-03-26

mtcnn.zip

基于andorid studio 3.6的ncnn版本的mtcnn人脸检测

2020-03-17

OpenCVDemo.zip

基于android studio 3.6的opencv的第二种调用方式

2020-03-16

OpenCVDemo.zip

基于android studio 3.6，ndk14b的opencv代码。demo级别的参考。。。。。。。。。。

2020-03-14

OPENPOSE.zip

openpose的模型文件，包含body25,body19,coco，mpi，还有训练文件，

2019-08-27

track.7z跟踪的顶顶顶顶goturn模型

跟踪goturn模型，opencv自带，可以实现自适应的跟踪。

2019-06-15

基于模板的文字识别结果结构化处理技术

基于模板的文字识别结果结构化处理技术，基于模板的文字识别结果结构化处理技术

2019-05-04

Xmanager.zip

Xmanager.Enterprise.5.0815.rar，破解版本，欢迎使用

2019-04-28

FTPServer.zip

ftp 搭建工具，可以简单的部署windows下的ftp server...

2018-12-12

CNN_book_weixs魏秀参.rar

cnn 总结，写的很棒，值得学习推荐。解析卷积神经网络 ——深度学习实践手册

2018-05-18

( face-py-faster-rcnn.zip )

基于faster rcnn 的人脸检测，带训练好模型。以及训练程序和测试程序

2018-02-11

( caffe-facebox-vs2013.7z )

facebox人脸检测c++实现，修改的ssd，效果一般，仅供学习

2018-01-21

( mnist_tfrecords.rar )

使用tfrecords格式数据训练mnist神经网络，使用tensorflow实现

2018-01-10

( caf_face_detection.7z )

基于深度学习的人脸检测，c++,带模型，自动更新学习模型，。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-18

CarFace-Detection-Adaboost.zip

基于opencv训练的cascade的车脸检测，带2个模型，vs2013下可以直接运行，对卡口车脸具有较好的识别效果，相应速度快。

2017-09-13

( libboost.zip )

caffe中缺少的libboost库文件，libboost_date_time-vc140-mt-1_61.lib，libboost_filesystem-vc140-mt-1_61.lib

2017-09-03

( cvpr-torch.pdf )

torch7官方文档

2017-08-14

( caffe-windows.zip )

windows版本的caffe，早期版本，里面有windows文件夹

2017-08-10

visualize.zip

将模型的weights和featuremap的可视化，c++实现

2017-07-11

( convert_imageset.cpp )

将caffe转化为支持多标签

2017-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人