自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

翻译 《Editing Text in the wild》学习笔记

Editing Text in the wildAbstract对自然图像中的文本进行编辑,其目的是在保持原始图像的真实感的同时,将源图像中的一个词替换或修改为另一个词。这项任务具有挑战性,因为背景和文本的样式都需要保留,以便编辑后的图像在视觉上与源图像难以区分。具体来说,我们提出了一个端到端可训练风格保持网络(SRNet),它由三个模块组成:文本转换模块、背景涂装模块、融合模块。文本转换模块将源图像的文本内容更改为目标文本,同时保持原始文本样式。背景inpainting模块擦除原始文本,并用适当的

2021-10-28 12:59:58 1040 1

原创 DB算法学习

Abstract《Real-time Scene Text Detection with Differentiable Binarization》提出了一种基于分割(实例分割)的场景文本检测算法,能够处理曲线文本。基于分割的检测的关键在于二值化的后处理,它将分割方法生成的概率图转换为文本的边框。本文提出了一个名为可微二值化(Differentiable Binarization,DB)的模块,可以在分割网络中执行二值化过程。结合DB模块进行优化,分割网络可以自适应调整二值化阈值,简化了后处理过程,并提高

2021-08-30 22:24:31 2202

原创 PaddleOCR学习(二)PaddleOCR检测模型训练

这一部分主要介绍,如何使用自己的数据库去训练PaddleOCR的文本检测模型。官方教程https://github.com/PaddlePaddle/PaddleOCR/blob/develop/doc/doc_ch/detection.md一、准备训练数据首先你需要有自己的数据,如果没有自己的数据,推荐使用ICDAR2015的数据库,上网搜即可找到,内含1000个训练样本和500个测试样本,包括图片与标准数据(txt格式)。如何标注自己的数据大家可以自行去网上搜索一下,PaddleOCR自带标注工

2021-08-23 16:24:50 8895 5

原创 PaddleOCR学习(一)PaddleOCR安装与测试

各种OCR算法试了一圈,还是PaddleOCR比较完善,集成度高,而且各种调试、测试、各种backbone的更改都要方便许多,非常的接地气。网上也有许多paddleocr的相关教程,但是说实话,有很多不清晰的地方,像我这样接触深度学习算法的新手,很多东西都搞不清楚,导致浪费不少时间,趁着网络在训练,我想做一份最最详细的PaddleOCR算法,确保初次接触深度学习的新手也能快速搞懂。一、安装PaddleOCR首先去github下载:https://github.com/PaddlePaddle/Paddl

2021-08-23 14:20:56 57459 41

原创 小样本学习综述 “Generalizing from a Few Examples: A survey on Few-shot Learning”

利用先验知识,FSL(Few-shot Learning)可以快速推广到只包含少量监督信息样本的新任务。FSL方法从如何利用先验知识的层面上可以分为三类:(1)数据,利用先验知识来增强监督经验;(2)模型,利用先验知识减少假设空间的大小;(3)算法,利用先验知识在给定的假设空间中改变搜索最优假设的方法。许多FSL的相关算法已经被提出,如元学习,嵌入学习,生成模型等。本文“Generalizing from a Few Examples: A survey on Few-shot Learning”

2021-07-14 18:58:33 1873

原创 win10&anaconda下rolabelimg安装教程

太难了,网上的教程都不全第一步,下载rolabelimg的代码包。https://codechina.csdn.net/mirrors/cgvict/roLabelImg?utm_source=csdn_github_accelerator这是rolabelimg代码包的win10安装说明,看起来很简单,其实暗藏玄机。第二步,下载PyQt4的安装包anaconda直接安装pyqt4难以成功,具体为啥我也不清楚,反正去这个网站下载whl文件https://www.lfd.uci.edu/~goh

2021-06-10 10:33:00 1107 2

原创 EAST&Advanced East算法学习

EAST系列论文学习EASTAbstractIntroductionMethodologyPipelineNetwork DesignLabel Generation四边形的得分图生成几何图生成损失函数得分图损失几何图损失RBOXQUADTrainingAdvanced East限制Advanced East 结构预测过程EASTAbstractEAST提出了一种针对自然场景下文本检测的算法,直接预测完整图像中任意方向和四边形形状的单词或文本行,消除不必要的中间步骤(例如候选框聚合和单词划分),只需要

2021-06-02 09:24:51 1308

原创 SOLOv2算法学习

SOLOv2神经网络学习SOLOv2是在SOLO的基础上进行的改进,原文为《SOLOv2: Dynamic and Fast Instance Segmentation》。代码在https://git.io/AdelaiDet上可以找到。摘要SOLOv2相对SOLO的主要改动有两点:(1)新框架由一个实例掩码表示方案来赋能,能够动态分割图像中的每个实例,不用借助bbox检测。具体来说,将目标掩码的生成(Mask branch)解耦成掩码核预测(Mask kernel branch)和掩码特征学习(M

2021-04-27 10:26:58 9460

原创 FPN特征金字塔学习

FPN——特征金字塔FPN是针对目标检测处理多尺度变换问题时的不足提出的,网络难以处理物体大小差异明显的检测问题,容易遗漏小物体。传统的方法是利用图像金字塔的方式进行多尺度变化增强,但是会导致计算量大幅增加。Abstract本文利用深度卷积网络固有的多尺度金字塔层次结构来构造具有边际额外成本的特征金字塔。开发了一个带有横向连接的自顶向下体系结构,用于在所有尺度上构建高级语义特征地图。Introduction识别不同尺度的物体是目标检测的一大挑战。(a)建立在图像金字塔上的特征金字塔(简称特征

2021-04-20 20:31:31 869

原创 SOLO算法学习

SOLO神经网络学习在博客的最开始,先简单谈谈图像处理的几大目标。首先是最基本的目标分类(Object Classification),输出结果“图像中是气球”;然后目标检测(Object detection)是在图像分类的基础上,给出每个气球的位置与标签;语义分割的目标是将目标与背景分离开,不同的目标之间也分离开,但是同类目标之间不做识别;而实例分割则达到将每个物体分离并识别的效果。当然,实例分割并不就完全比语义分割高级,语义分割能够处理不可数物体,而实例分割目前只能处理可数物体,这是其尚未

2021-04-09 19:15:17 4435 1

原创 Torchvision_MaskRCNN(1)数据集准备

最近需要做一个目标分割任务,但是没啥经验,所以准备从基础搞起,先学习如何使用经典的MaskRCNN来实现检测任务。MaskRCNN的原始版本是用TensorFlow写的,但是我没啥TensorFlow的经验,Pytorch稍微熟悉一点,而且去网上查了下都说Pytorch版本的MaskRCNN好像训练速度更快、效果更好一些,这一点就不发表看法了。MaskRCNN的数据集要比一般的分类任务、目标检测任务、语义分割任务的数据集都复杂一些,因为需要标注出不同种类的物体轮廓,同种物体的不同个体之间也要编号,如果只

2021-04-07 17:08:57 1689 2

原创 YOLOv3,YOLOv4学习

YOLOv3,YOLOv4神经网络学习前面刚刚学过了YOLO以及YOLOv2神经网络的架构原理,不过要学还是要学最新的网络,YOLOv3,乃至YOLOv5都是在YOLO网络的基础进一步改进而来,这篇博客是基于《YOLOv3: An Incremental Improvement》和《》,以及结合一些网上的解读来写的,主要是个人的一些理解。YOLOv3:渐进式改进YOLOv3与YOLO9000一样,采用维度簇作为anchor box来预测bounding box。YOLOv3使用逻辑回归预测每个bou

2021-02-23 18:48:31 920 2

原创 YOLO神经网络

YOLO神经网络本文准备详细介绍一下用于目标检测的YOLO神经网络,主要是个人研读《You Only Look Once: Unified, Real-Time Object Detection》与《YOLO9000: Better, Faster, Stronger》这两篇论文的所得,以及结合网上一些对YOLO网络的解读。首先我想说明下我个人认为YOLO网络的核心突破点。在基于神经网络的机器视觉领域,两个问题一直居于核心,大部分流传甚广的优秀网络架构基本都是围绕这两个问题展开的,一个是目标识别,一个

2021-02-16 22:09:02 8741 1

原创 《增强现实:原理、算法与应用》读书笔记(11)RGB-D SLAM

《增强现实:原理、算法与应用》读书笔记(11)RGB-D SLAMRGB-D传感器进行SLAM可以获得稠密的深度图,更便于进行稠密地图的重建。微软在2010年首次推出消费级的RGB-D相机Kinect之后,各种RGB-D SLAM方法被不断提出,比如2011年的SIGGRAPH会议上展示了KinectFusion实时重建算法(Newcombe et al., 2011a)。RGB-D相机跟踪RGB-D相机跟踪指根据RGB-D相机获取的颜色图像和深度图序列得到相机的位姿轨迹,大多数RGB-D SLAM系

2021-01-25 21:21:36 502

原创 《增强现实:原理、算法与应用》读书笔记(10)视觉惯性SLAM

《增强现实:原理、算法与应用》读书笔记(10)视觉惯性SLAM单目视觉SLAM系统存在一定的局限性,它非常依赖相机的成像质量,在图像质量不佳的时候则难以正常工作。即使图像质量很好,缺乏尺度信息也对重建造成了困难。而且在AR应用中,为了与场景交互,SLAM算法必须提供鲁棒的带正确尺度信息的相机位姿估计。而随时可能出现的光照、纹理质量的变化,以及相机快速运动带来的图像模糊,都给SLAM带来很大的挑战。为了解决这些问题,我们可以考虑引入其他辅助手段,比如使用更好的图像特征、更鲁棒的特征匹配方法来减轻图像质量不

2021-01-25 19:47:59 632

原创 《增强现实:原理、算法与应用》读书笔记(9)同时定位与地图构建&视觉SLAM

《增强现实:原理、算法与应用》读书笔记(9)同时定位与地图构建早在人类开始航海的时期,人类借助指南针与六分仪在大洋上导航。中国古代,人们借助指南车的轮式里程计的差速获取当前朝向。这种仅根据某一时刻传感器的局部信息进行推断运动从而恢复位置的方法称为航位推测法。然而,航位推测法不能解决定位中误差不断累积的问题,如果没有地图或绝对位置信息,航线会逐渐偏离目的地。这时就需要根据已经记录过的地貌来矫正定位误差。SLAM算法可以在未知环境中定位自身方位并同时构建三维地图。SLAM算法根据传感器不同分为很多种,常用

2021-01-24 21:18:37 985

原创 《增强现实:原理、算法与应用》读书笔记(8)三维结合重建

《增强现实:原理、算法与应用》读书笔记(7)三维几何重建在恢复了相机参数和深度图之后,往往还需要进一步重建出三维几何模型。根据三维信息的表达方法,可以分为:基于深度图融合的三维重建、基于点云的三维重建、基于体素的三维重建等。基于深度图融合的三维重建深度图是一种图像坐标系下的表达方式,每一幅图像的像素被赋予了在该相机下的深度。通过相机参数,深度图可以被反投到世界坐标系。与点云不同的是,深度图由像素的邻接关系定义了其拓扑结构,因此每张深度图都对应了世界坐标系下的一个曲面。由于多幅深度图之间可能存在重叠,

2021-01-17 14:39:01 443

原创 《增强现实:原理、算法与应用》读书笔记(7)稠密深度估计

《增强现实:原理、算法与应用》读书笔记(7)稠密深度估计增强现实技术除了要恢复相机参数和场景的稀疏结构,有时候为了更好地处理遮挡关系和合成阴影,还需要恢复出场景的稠密三维结构。因此,稠密深度估计也是增强现实技术中很重要的一环。深度计算方法有很多种,常见的主要有立体匹配法、光度立体视觉法、色度成形法、散焦推断法以及基于深度学习的方法等,其中最常用的就是立体匹配的方法。立体匹配是利用多视图几何原理,从不同视角拍摄的多幅图像,通过匹配恢复出场景的三维信息。双视图立体匹配利用相机模仿人类的双目视觉系统,从

2021-01-15 11:31:00 737

原创 《增强现实:原理、算法与应用》读书笔记(6)运动恢复结构(下)自定标、代表性SfM方法

《增强现实:原理、算法与应用》读书笔记(6)运动恢复结构(下)初始化、相机位姿估计、集束调整自定标自定标(Self-calibration)是SfM里一个非常重要的技术,通过利用图像上的二维信息自动求解出相机的内部参数,而不需要标定物。一般带自定标的SfM求解流程是先通过两帧或三帧求解来初始化射影空间上的三维结构和相机运动参数,然后通过增量式的求解方式扩大求解的帧数和重建的三维点云,再选择合适的时机通过自定标技术将重建的结果转换到度量空间上。绝对二次曲线是自定标理论中一个非常重要的概念,一般用对偶绝

2021-01-14 22:08:56 426

原创 《增强现实:原理、算法与应用》读书笔记(5)运动恢复结构(上)初始化、相机位姿估计、集束调整

《增强现实:原理、算法与应用》读书笔记(5)运动恢复结构运动恢复结构(SfM)是一种从运动的相机拍摄的图像或视频序列中自动地恢复出相机运动轨迹以及场景三维结构的技术。如图,一个完整的SfM系统一般包括特征匹配、初始化、相机位姿和特征点三维位置的求解、集束调整(bundle adjustment,BA)和自标定(self-calibration)等模块。早期的SfM系统一般是离线计算的,后来发展出了实时的SfM技术,也就是视觉SLAM技术。初始化三级标题...

2021-01-12 17:27:06 1157

原创 《增强现实:原理、算法与应用》读书笔记(4)特征匹配主流算法

《增强现实:原理、算法与应用》读书笔记(4)特征匹配主流算法主流的特征匹配算法可分为两种,一种是基于特征点周围像素分布相似度的模板匹配,另一种是通过构造合适的描述子进行匹配。模板匹配在特征匹配中,模板一般是指特征周围的图像块,而模板匹配是在另一图像的特征中查找与模板图像最为相似的图块。模板匹配算法的一般流程:(1)遍历另一图像的所有特征;(2)将这些图像块与模板图像进行对比;(3)计算并记录两者的相似度;(4)得到与模板图像相似度最高的特征。如何定义相似度是模板匹配准确率的重中之重,一种方

2020-12-31 19:39:36 1251

原创 《增强现实:原理、算法与应用》读书笔记(3)特征与匹配

《增强现实:原理、算法与应用》读书笔记(3)特征与匹配这一部分真的非常非常非常长,但是我个人感觉真的很重要,要不插个目录吧第三章:实景的三维结构恢复和重建目录《增强现实:原理、算法与应用》读书笔记(3)特征与匹配第三章:实景的三维结构恢复和重建特征图像预处理与梯度提取Harris特征点提取Fast特征点提取旋转不变性尺度不变性特征特征提取的目的是什么不用我多说了,一般图像中的点和边缘是我们最常用的特征,特征点可定义为在两个或两个以上方向颜色迅速变化的像素的集合(Forsyth et al., 20

2020-12-29 22:00:00 269

原创 《增强现实:原理、算法与应用》读书笔记(2)多视图几何

《增强现实:原理、算法与应用》读书笔记(2)第三章:实景的三维结构恢复和重建多视图几何多视图几何相比双视图几何,有利于消除噪声的影响提高精度,从递推关系上来说,我们可以用基础矩阵来表示双视图的关系,则可以用多焦点张量表达多视图之间的联系(如三视图几何可以使用3×3×33\times3\times33×3×3的张量来表达)。如图,空间直线LLL在三个视图C,C′,C′′C,C',C''C,C′,C′′上的投影分别为l,l′,l′′l,l',l''l,l′,l′′,即三者的反投影平面在空间中交于LLL

2020-12-29 16:52:39 251

原创 《增强现实:原理、算法与应用》读书笔记(1)基础矩阵、本质矩阵与单应性矩阵

《增强现实:原理、算法与应用》读书笔记(1)入坑增强现实,学长让我先把这本书看懂,看了一小半,确实有很多对数学要求挺高的地方,所以打算写个读书笔记,分享一些体会。第三章:实景的三维结构恢复与重建双视图几何原理:基础矩阵与本质矩阵首先,双视图几何原理需要理解,左图中的一个点会在右图中对应一条直线,这是因为从相机光心到图像上该点可以连出一条射线,该点的空间位置就在这条射线上,而这条射线在另一台相机的图像上的投影就是一条直线,称为极线。两台相机光心的连线称为基线,基线与两个视图平面的交点称为极点eee,

2020-12-29 14:53:48 510 2

原创 Kaggle猫狗大战——基于Pytorch的CNN网络分类:预测模型结果(4)

Kaggle猫狗大战——基于Pytorch的CNN网络分类:预测模型结果(4)本文是Kaggle猫狗大战项目的最后一步了,写一个predict.py,在命令行输入随便找的猫狗图片,使用训练好的模型进行预测。这块比较简单,就话不多说,直接上代码。predict.pyimport sysimport torchimport osfrom torchvision import datasets, transformsfrom torch.utils.data import DataLoaderfr

2020-12-28 14:21:29 1405

原创 Kaggle猫狗大战——基于Pytorch的CNN网络分类:CNN网络、调参(3)

Kaggle猫狗大战——基于Pytorch的CNN网络分类:CNN网络、调参(2)二级标题三级标题四级标题五级标题六级标题

2020-12-25 19:55:04 1259

原创 Kaggle猫狗大战——基于Pytorch的CNN网络分类:主程序、训练网络、准确率曲线绘制(2)

Kaggle猫狗大战——基于Pytorch的CNN网络分类:主程序、训练网络、准确率曲线绘制(2)二级标题三级标题四级标题五级标题六级标题

2020-12-25 17:16:30 1661 3

原创 Kaggle猫狗大战——基于Pytorch的CNN网络分类:数据获取、预处理、载入(1)

Kaggle猫狗大战——基于Pytorch的CNN网络分类:学习笔记(1)第一次写CSDN博客,之前一直是靠着CSDN学学代码,这次不得不亲自上场了,就想着将学习的过程都记录下来。新人分享,可能菜了点,还请大家多多包涵。这次的目标是构建一个Kaggle猫狗大战的CNN识别网络,内容有点多,就分了几步讲。第一章就先讲讲一些准备工作,包括数据获取、程序的框架、预处理这些。数据获取首先你需要获得猫狗的数据,建议去Kaggle官网上下,缺点就是Kaggle官网上的train包里猫狗的标签是分开的,但是test

2020-12-25 16:39:21 2494 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除