![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
图像识别
文章平均质量分 69
智能血压计
这个作者很懒,什么都没留下…
展开
-
【手撕经典算法】经典卷积网络(一)VGG
本文讲解和代码地址:https://github.com/lzneu/handwriten_net/blob/master/conv/VGG.ipynb原创 2021-01-14 15:42:51 · 693 阅读 · 0 评论 -
【手撕经典算法】【论文解读】【目标检测】YOLO系列解读YOLOv3算法手写
YOLO系列算法论文解读YOLOv11、直接看网络的输出如何表示目标如Fig2最终的输出层特征尺寸为S*S大小的grid,每个grid单元代表一个输出预测; 每个输出预测包括B个bbox以及C个类别的置信度 bbox表示为[x,y,w,h, 置信度],其中,xy 为相对于gridcell边界的中心;w,h 为相对于整个图片的距离;置信度预测为预测框和真实框的IOU值,当grid cell中不存在目标时,其值为0 C个类别置信度为Pr(Classi| Object),其中P(Obj原创 2020-12-29 10:43:47 · 1126 阅读 · 1 评论 -
【手撕经典算法】【目标检测】SSD
先看论文,再写解读,再根据pytorch 手写实现原创 2020-12-21 15:08:15 · 1460 阅读 · 2 评论 -
【论文解读】Stacked Hourglass Networks
题目:Stacked Hourglass Networks forHuman Pose Estimation作者背景:ECCV 2016录用作者来自密歇根大学原创 2020-11-11 17:50:25 · 642 阅读 · 1 评论 -
【论文解读】【图像分割】U-Net
题目U-Net: Convolutional Networks for BiomedicalImage Segmentation作者基于滑窗的分割缺点1、对每个取窗的patch分隔训练,patch与patch之间数据重复度高2、定位精确度与context之间有trade-off。大的patch需要更大的pooilng层,使得定位误差增大;同时,小的patch使得网络提取出更少的语义信息主要工作1、基于FCN,在收缩网络之后连接扩展网络,形成一个类似U形状的网络架构2、将p原创 2020-11-05 16:27:30 · 1164 阅读 · 0 评论 -
【论文解读】【文字检测】EAST
EAST: An Efficient and Accurate Scene Text Detector作者:一、Overview主要的工作包含三个部分:- 取消多阶段模型,提出2阶段模型,FCN+NMS- 支持旋转矩形、四边形;支持词级别、句级别的文字检测- 提出的算法在精度和速度都达到sota二、算法介绍2.1 网络设计- 要点:大的文本区域需要高级特征;小的文本区域需要低级别的特征- 借鉴U-net的灵感 ,使用up-sampling模块来进行特征融合...原创 2020-10-29 20:45:45 · 500 阅读 · 2 评论 -
【论文解读】【文字检测】PixelLink
PixelLink: Detecting Scene Text via Instance Segmentation作者:一、Overview1.1 拟解决的问题:- 文本实例距离非常近的情况,语义分割无法分开两个实例1.2 算法简介- 预测包含两个部分:1)文本/非文本;2)连接预测- 受到SegLink的启发,与其不同的是:PixelLink仅仅关注像素及其临近的8个像素是否在同一文本实例内,如果在的化就是正样本,否则为负- 然后使用这两个部分的预测来生成Connect原创 2020-10-19 21:52:48 · 417 阅读 · 0 评论 -
【论文解读】【文字检测】SegLink
Detecting Oriented Text in Natural Images by Linking Segments一、作者二、主要思想将文本检测的全局问题拆分成两个局部可检测元素:segments和links;然后使用这两个元素合并成为bbox。三、Overview3.1 优势:- 适用于任意长度文本,任意方向的文本- 速度快3.2 主要架构- 使用VGG16作为backbone- 增加6个卷积预测器- 为了处理多尺度检测,使用两种类型的link...原创 2020-10-19 17:57:28 · 634 阅读 · 0 评论 -
【Moving Least Squares】【移动最小二乘法】
基于移动最小二乘的图像变形一、背景意义写这篇博文是应为目前为止我看到了好多领域里的经典paper算法都有涉及到移动最小二乘(MLS)。可见这个算法非常重要,先来看一下它的相关经典应用:1、图像变形。在图像处理领域paper:《Image Deformation Using Moving Least Squares》利用移动最小二乘的原理实现了图像的相关变形,而且这篇paper的引用率非常高,可以说是图像变形算法的经典算法,Siggraph上面的paper。利用移动最小二乘实现图像变形转载 2020-10-13 16:15:31 · 3863 阅读 · 0 评论 -
CSIG-DIAR 2020学术年会系列报道-学习笔记
CSIG-DIAR 2020学术年会系列报道一、金连文老师《手写及场景文字分析与识别的一些新尝试》演讲笔记1.1 手写体签名鉴别 1.1.1 总体趋势 - 传统仍然由于纯深度学习模型,原因有2 = 已有的训练数据集规模很小 = 需要寻求有效的数据增广方式 1.1.2 SynSig2Vec:一种新的深度学习笔迹鉴别新方法 - 只需要真实签名机器形变样本,无需仿冒签名来进行训练 二、白翔老师《2020年场景文...原创 2020-09-28 17:51:42 · 524 阅读 · 0 评论 -
【论文解读】【论文翻译】SAST文字检测算法
A Single-Shot Arbitrarily-Shaped Text Detector based on,Context Attended Multi-Task Learning百度自研文字检测算法,实际上就是EAST算法的扩展,一阶段,输出为multitask,各个分支相互校正。原创 2020-08-22 15:55:57 · 4772 阅读 · 1 评论 -
表格OCR相关资源整理【ICDAR】【表格识别】【持续更新...】
定义: 表格检测(Table Detection)任务是从一个页面中检测出表格所在的区域 表格结构识别(Table Structure Recognition)任务则是在检测到的表格区域的基础上,进一步将表格的内容与逻辑结构识别出来 数据集: 名称 说明 内容 量级 地址 ...原创 2020-03-23 12:31:55 · 5921 阅读 · 5 评论 -
DB算法分析《Real-time Scene Text Detection with Differentiable Binarization》
算法架构图:算法分析 总览,主要包含三个部分: backbone提取特征(特征金字塔) 特征金字塔被上采样到相同尺度构建一个特征图F 使用F来预测概率图P和阈值图T,并通过P和T来生成二值图B 一些细节: 预设的图片大小【640,640】 在训练阶段:P、T、B都会进行loss计算,并bp,其中P、B会使用相同的标签 在推理阶段,P、B都可以被...原创 2020-02-13 15:41:44 · 3336 阅读 · 0 评论 -
【论文解读】【论文翻译】【线框分析】LCNN
1. 文章背景:2018年的CVPR会议上,来自上海科技大学信息学院的团队提出了《Learning to Parse Wireframes in Images of Man-Made Environments》论文来进行现实场景中图片框线结构的检测分析研究,与此同时,他们贡献出了一个带标注的开源的数据集wireframe。本文正是基于该数据集进行的框线分析问题研究。这篇论文旨在为业界的...原创 2019-11-10 18:34:32 · 6156 阅读 · 0 评论 -
【论文解读】【论文翻译】【文字检测Corner】ICDAR2019发票比赛冠军论文
1. 文章背景:ICDAR2019任务3: 发票比赛端到端识别比赛冠军,技术方案Corner+CRNN,其中的Corner方法就是本文方法,开源代码:https://github.com/lvpengyuan/corner2. 题目:Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentati...原创 2019-09-26 16:08:30 · 2826 阅读 · 9 评论