自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

2022-12-23 14:11:04 920

原创 【文字识别】SRN - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

2022-12-23 14:01:20 516

原创 文本检测-基于分割的文本检测算法论文笔记

PSENet和DBNet论文笔记

2022-10-05 16:22:18 769 2

原创 端到端OCR-ABCNet论文笔记

端到端OCR-ABCNet

2022-10-02 17:41:25 762 3

原创 传统表格线检测算法

一些直线检测算法的整理

2022-09-20 00:20:16 391

原创 KIE - SDMGR

Spatial Dual-Modality Graph Reasoning for Key Information Extraction

2022-09-12 12:51:25 541

原创 KIE - Graph Convolution Network

Graph Convolution for Multimodal Information Extraction from Visually Rich Documents

2022-09-12 10:45:34 569

原创 人脸检测:RetinaFace和CenterFace

RetinaFace和CenterFace

2021-11-18 18:37:36 774 1

原创 目标检测笔记-CenterNet(Object as Point)

Object as Point输入Image I∈RW×H×3I \in R^{W \times H \times 3}I∈RW×H×3输出heatmap Y^∈[0,1]WR×HR×C\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}Y^∈[0,1]RW​×RH​×CR表示output stride,通常为4,输出对...

2020-02-08 21:13:31 670

原创 高级数据结构-堆和优先队列

2. 堆堆就是用数组实现的二叉树,所有它没有使用父指针或者子指针。堆根据“堆属性”来排序,“堆属性”决定了树中节点的位置。堆的常用方法:构建优先队列支持堆排序快速找出一个集合中的最小值(或者最大值)堆分为两种:最大堆和最小堆,两者的差别在于节点的排序方式。在最大堆中,父节点的值比每一个子节点的值都要大。在最小堆中,父节点的值比每一个子节点的值都要小。这就是所谓的“堆属性”,并且这...

2019-10-07 15:58:32 224 1

原创 高级数据结构-Trie树、并查集

1. Trie树Trie树,又称字典树或前缀树,是一种有序的、 用于统计、排序和存储字符串的数据结构,它 与二叉查找树不同,关键字不是直接保存在节点 中,而是由节点在树中的位置决定,每个节点 代表了一个字符,从第一层孩子节点到中间的 某个标记的节点代表了存储的字符串。 一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串 。一般情况下,不是所有的节点都有对应的字符 ...

2019-10-07 11:32:05 267 1

原创 C/C++字符串翻转

0.字符串定义C语言char类型 // char define str char str[] = "hello"; int len = strlen(str); char str_rev[len+1];C++ string类型 //string define str string str = "hello"; int len = str.s...

2019-09-03 20:55:04 356

原创 目标检测-OHEM(online hard example mining)

OHEM:online hard example mining论文地址:https://arxiv.org/abs/1604.03540难例挖掘是指,针对模型训练过程中导致损失值很大的一些样本(即使模型很大概率分类错误的样本),重新训练它们.维护一个错误分类样本池, 把每个batch训练数据中的出错率很大的样本放入该样本池中,当积累到一个batch以后,将这些样本放回网络重新训练.样本不平...

2019-05-28 21:24:32 789

原创 目标检测-Focal loss

focal loss论文地址:https://arxiv.org/pdf/1708.02002.pdf传统的交叉熵损失函数:定义pt如下。那么公式可以改写为我们可以用αt来改进交叉熵公式。αt是个(0,1)的数,定义和pt差不多。取α为0.25,当为正样本时α是0.25,权重小,负样本时α时0.75,权重就大一些。focal loss公式:我猜FL是个pt的单调递减函数。...

2019-05-28 21:22:07 611 1

原创 目标检测-SSD(Single Shot MultiBox Detector)

SSD : Single Shot MultiBox Detector论文地址:https://arxiv.org/abs/1512.02325网络结构与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度。针对不同大小的目标检测,传统的做法是先将图像转换成不同大小(图像金字塔),然后分别检测,最后将结果综合起来(NMS)。而SSD算法则利用不同卷...

2019-05-28 21:21:12 494

原创 目标检测-FPN(Feature Pyramid Network)

FPN(Feature Pyramid Network)论文地址:https://arxiv.org/pdf/1612.03144.pdf在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思...

2019-05-28 21:19:50 340

原创 ncnn的编译和使用

1.opencv要做图像识别首先编译opencv2.4。官网下载opencv2.41 unzip opencv-3.2.0.zip2 cd ~/opencv-3.2.03.编译opencv  cd ~/opencv-3.2.0mkdir buildcd buildcmake …make -j8如果出现这个错误:CMakeFiles/Makefile2:890: recip...

2019-05-11 02:32:39 5431

原创 DeepLab系列论文阅读笔记

1.DeepLab v1论文:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFsDeeplab v1主体结构是参照VGG改造的。deeplab = 优化后的CNN+传统的CRF模型,CNN输出粗糙的分割结果,全连接CRF精化分割结果。新的上采样卷及方案:带孔的空洞卷积文章...

2019-04-26 00:41:06 870

原创 LeetCode-452 射击气球

在二维空间中有许多球形的气球。对于每个气球,提供的输入是水平方向上,气球直径的开始和结束坐标。由于它是水平的,所以y坐标并不重要,因此只要知道开始和结束的x坐标就足够了。开始坐标总是小于结束坐标。平面内最多存在104个气球。一支弓箭可以沿着x轴从不同点完全垂直地射出。在坐标x处射出一支箭,若有一个气球的直径的开始和结束坐标为 xstart,xend, 且满足 xstart ≤ x ≤ xend...

2019-04-06 00:58:19 593

原创 C++和算法

1. sizeofhttps://www.cnblogs.com/bigbigtree/p/3580585.htmlhttps://www.cnblogs.com/huolong-blog/p/7587711.html2. static关键字https://www.cnblogs.com/songdanzju/p/7422380.html3. const关键字https://www.c...

2019-04-06 00:57:52 157

原创 目标检测算法笔记

1.FPN(Feature Pyramid Network)论文地址:https://arxiv.org/pdf/1612.03144.pdf在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题...

2019-04-01 01:55:58 231

原创 图像特征点提取(SIFT,SURF,ORB)

1.SIFTSIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。1.SIFT算法具的特点图像的局部特征,对旋转、尺度缩放、亮度变化保持不变,对视角变化、仿射变换、噪声也保持一定程度的稳定性。2.SIFT特征检测的步骤1...

2019-03-26 16:24:04 17243

原创 自动驾驶数据集:Cityscapes和kitti

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。用于评测目标(机动车、非机动车、行人等)检测、目标跟踪、路面分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。KITTI数据集中,目标检测包括了车辆检测、行人检测...

2019-03-25 15:51:00 2671

原创 YOLOv3训练的过拟合问题

在训练YOLOv3的时候用了4个类别,car,bus,truck和tricycle,训练了2w轮,loss不到0.2但是在训练集和测试集分别测试mAP的时候缺出现了很大的差距。val result:class name: bus('ap', 0.22807790544644976)class name: car('ap', 0.63199984246435803)class name...

2019-03-23 15:48:46 9839 6

原创 Faster RCNN-4(训练过程和网络搭建)

1.Faster RCNN的训练过程4-Step Alternating Training. In this paper, we adopt a pragmatic 4-step training algorithm to learn shared features via alternating optimization. In the first step, we train the RPN...

2019-03-23 14:06:51 3570 1

原创 Faster RCNN-3(VGG和ResNet)

1.pytorch和numpy首先补充一点pytorch和numpy的函数import torchimport numpy as np# reshape:有返回值,所谓有返回值,即不对原始多维数组进行修改# resize:无返回值,所谓有返回值,即会对原始多维数组进行修改a = np.arange(0, 12, 1).reshape(2, 3, 2)print(a)a.resiz...

2019-03-23 01:22:08 8333 1

原创 Faster RCNN-2 (ROI Pooling和ROI Align)

RoI Pooling层是个池化层,负责收集proposal,把不同大小的proposal resize到相同的尺寸(例如7x7),并计算出proposal feature maps,送入后续网络。从下图中可以看到Rol pooling层有2个输入:原始的feature mapsRPN输出的proposal boxes(大小各不相同)caffe中faster_rcnn_test.pt...

2019-03-21 22:52:56 3652

原创 Deeplab训练自己的数据集

1.制作自己的数据集1.1 用labelme生成json文件lebelme安装:# Ubuntu 14.04 / Ubuntu 16.04# Python2# sudo apt-get install python-qt4 # PyQt4sudo apt-get install python-pyqt5 # PyQt5sudo pip install labelme# Pyth...

2019-03-21 17:08:35 2079 1

原创 Faster RCNN-1(RPN)

RPN的结构可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得foreground和background(检测目标是foreground),下面一条用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合foreground anchors和bounding box re...

2019-03-21 16:59:25 437

原创 Ubuntu16配置caffe和faster RCNN

主要参考了这篇文章https://blog.csdn.net/yhaolpz/article/details/71375762和https://blog.csdn.net/sinat_30071459/article/details/51332084,写的很好硬件是GTX1060的显卡1、安装依赖包 2、禁用 nouveau 3、配置环境变量 4、下载 CUDA 8.0 5、安装 CUDA...

2018-05-21 14:59:55 490

原创 matlab下训练faster rcnn出现的错误

 一、出现的问题1、错误使用 containers.Map/values,此容器中不存在指定的键。出错 roidb_from_voc>attach_proposals (line 172)gt_classes = class_to_id.values({voc_rec.objects(valid_objects).class})答:你标注的目标种类与datasets/VOCd...

2018-05-21 14:59:09 5906

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除