【停更公告】 因为感觉CSDN的交流学习生态不是特别好,所以博客基本不怎么用了,平时的话知乎会看的多一点,后续有精力会写一些文章。个人目前在商汤实习,浙大计院硕士在读,方向是OCR(主要是场景文字识别)和 NAS,后续有希望交流或者需要内推的可以在知乎 (https://www.zhihu.com/people/francisliu-48)私信我。...
Copy-Paste Commands -ihttps://pypi.tuna.tsinghua.edu.cn/simple :set shiftwidth=4 # 设置缩进宽度为 4:set expandtab # 设置 Tab 转为空格10>> # 下面 10 行向右缩进10<< # 下面 10 行向左缩进 sync; echo 3 > /...
CNN backbone 总结笔记 算是一篇梳理backbone的总结笔记,前面部分不少内容都是照搬 reference 2 的,稍微总结了一下里面的内容,后面增加了其中遗漏的以及今年新出的网络(FPN,Hourglass,ResNeXt,DCN,DPN,SENet,MobileNet v3),用了很多网图,联系侵删;Reference:1.https://arxiv.org/pdf/1908.03673.pdf,19年...
基于STN的场景文字识别框架整理 当前场景文字识别较为主流的方法分为 attention mechanism(代表:Show, Attend and Read; Transformer-based attention; 各种各样的 2D Attention) 和 STN + CRNN /DenseNet + CTC,二者的主要区别是一个是在解码前给文字区域赋予较高的权重,聚焦于文本信息,弱化无关背景信息,另一个是在一开始修正曲形...
MaskRCNN-BenchMark pytorch源码阅读笔记 长文警告...源码地址:https://github.com/facebookresearch/maskrcnn-benchmarkmodeling 部分解析来自:模型定义(modeling)之骨架网络(backbone),博主将resnet,fpn等实现细节讲述的非常详细,根据最新发布的maskrcnn-benchmark版本略微做了修改。按照从外往里的顺序阅读一下maskrcnn的...
OCR-文本图像合成工具 1. Text Recognition Data GeneratorGithub地址:https://github.com/Belval/TextRecognitionDataGenerator官方文档:https://textrecognitiondatagenerator.readthedocs.io/en/latest/index.html安装:# pip 安装,中文不建...
OpenCV Python 常见图像预处理与图像数据增强总结 索引:图像预处理 1. 滤波 2. 二值化 3.通道合并与分离 4. 图形绘制&添加文字 5. 图形变换 6. 形态学 7. 视频&摄像头 8. 边缘检测 9. 闭包矩形 10.直方图均衡化 11. 霍夫直线检测 12. 存储路径含中文 13.图像加权合成 14. 图像压缩 图像增强(写成 Augment class)图像预处理1. 滤...
Attention Mechanism 序列学习任务中的注意力机制 Attention机制:序列学习任务(translation, QA, image captioning, OCR 等)上提升巨大;分类: 空间注意力 Spatial Attention 时间注意力 Temporal Attention Soft Attention (soft 分布) Hard Attention (one-hot 分布) 引入原因: 输入序列很长时,模...
2D Attention Network for Scene Text Recognition paper地址:2D Attentional Irregular Scene Text Recognizer.继 Transformer-based-OCR 后又一篇基于语言、翻译模型架构的不规则文字识别的paper,主要贡献如下:attention部分使用多层双向transformer的block(BERT)替代了单transformer block; label只用于计算loss,不...
日常踩坑总结 self.parser.add_argument('--lr_use', action='store_true', default=False)# 终端运行不加入--lr_use,lr_use的值为default: False, 加上--lr则为True; # 有default值的时候,running时不申明为default; # 申明的话,如果是store_false则默认True,...
Git 命令总结 创建仓库流程:第一次创建要添加Git全局设置git config --global user.name "$username"git config --global user.email "$useremail"从0创建一个新的代码仓库在Github / GitLab 上先创建一个仓库(假设叫repo),再在工作目录下执行:git clone git@github.com:u...
曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition 和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接:Show, Attend and Read由于show attend and read是基于LSTM-encoder-decoder结构的翻译翻译模型(以前翻译的主流框架),隔壁翻译组的同事当时看到就说说不定可以用transformer(现在的主流翻译模型)做ocr,结果。。过了两三个月就真出了基于transfor...
Linux 文件命令总结 基础命令:常用 Linux 命令# 服务器登录ssh lx@10.1.2.3# 服务器配置生效source ~/.bashrc# 删除用户ssh root@10.141.1.10 # root 登录服务器userdel name # 删除name用户# 添加用户useradd -d /search/odin/name name # ...
将彩色RGB分割标注图像数据集转换为COCO格式的json文件 由于很多检测、分割网络对coco格式的数据集都兼容支持,有时候需要将自己的数据集转化为coco格式的json文件,写一篇博客记录一下自己将彩色RGB的分割标注图像转换为coco格式文件的过程。彩色 label:转换为单个物体的黑白mask:生成最终的 json 文件:具体流程:1. 安装pycococreator(先安装pycocotools, cyth...
Python 文件命令总结 读取 Excel:import xlrddata = xlrd.open_workbook('gt.xlsx')table = data.sheet_by_name('Sheet1')for i in range(table.nrows): imgname, gt = table.row_values(i)[0], table.row_values(i)[1]新建、删...
Python / C++ OpenCV 前后两张截图去重 & 图像找不同 概述:场景与任务:判断相邻的两张微信聊天截图是否为同一张(传输压缩、格式转换过程中存在一定像素失真和边缘抖动,不可以直接相减) 要求:使用数字图像处理的方法(仅作为预处理去重,不用深度学习方法);一组(两张)图片判断的时间要求在20ms以内; 思路: 转换到HSV空间下,先将聊天窗口通过颜色阈值单独分离出来; 轮廓查找判断两张图的闭包矩形框的数目是否相同,不同则为不同截图; 否则...
不规则文字识别方法之 SAR: Show, Attend and Read (2018)论文解析 论文地址:Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition对于不规则(曲形文字、艺术字等)的识别,作者没有采用基于修正(rectification)的策略,而是提出利用基于不规则文字而构造的(tailored)基于二维注意力机制模块(2D attention module)的模型...
计算机视觉方向实习面试总结 (商汤 / 搜狗 / 纽劢 / 普华永道) 目前个人情况:普通211,计算机不是很相关专业大四,已保研,CV方向,所以想找份视觉方向的实习,记录一下面试的一些情况希望对找相关实习或工作的同学有所帮助。项目(面试问题基本从项目里面找的):植物叶片的实例分割+半自动标注软件(Mask RCNN + Qt5,毕设) 一篇数据分析与可视化、LSTM预测拟合时序数据的论文(SCI一作,非CV方向,对面试基本没有帮助) OpenCV相关的两...
卷积计算、1x1 卷积、BN、梯度爆炸与消失、ResNet残差、RoI Pooling 和 RoI Align 卷积输出计算以及卷积核参数计算 计算量 =,,即输入通道数、输出通道数、卷积核长、宽、输出特征图的长、宽的乘积; 参数数量 =1 x 1 卷积的作用 参考:1 x 1 卷积的作用 当1*1卷积出现时,在大多数情况下它作用是升/降特征的维度,这里的维度指的是通道数(厚度),而不改变图片的宽和高。 e.g. W*H*6的特征...
图像数据预处理 -- 数据增强、写入tfrecords Augmentor 是图像数据增强一个很好用的python库,支持多种图像变形变换。下面这段代码展示的是基于图像分割的数据集,同时生成增强的图像及其对应的label:import Augmentor# 图像所在目录AUGMENT_SOURCE_DIR = 'E:/datasets/leafs/imgs'AUGMENT_LABEL_DIR = 'E:/datasets/leafs/...