自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 LORE-TSR代码复现

LORE-TSR的PyTorch正式实施。LORE可以通过将TSR建模为逻辑位置回归,以端到端的方式执行表结构识别(TSR)。该模型简化了TSR流程,作为一个基于关键点的类检测器框架。LORE-TSR在实现中表现出良好的效率和性能,这对未来的TSR模型有一定的借鉴意义。

2023-06-09 12:28:19 866 1

原创 CBNetV2:一种用于目标检测的复合骨干网络体系结构

现代性能最好的对象检测器在很大程度上依赖于骨干网络,骨干网络的进步通过探索更有效的网络结构带来了一致的性能增益。在本文中,我们提出了一种新颖而灵活的主干框架,即CBNetV2,以在预训练微调范式下使用现有的开源预训练主干来构建高性能检测器。特别是,CBNetV2体系结构将多个相同的主干分组,这些主干通过复合连接进行连接。具体而言,它集成了多个骨干网络的高级别和低级别特征,并逐渐扩展感受野,以更有效地执行对象检测。我们还提出了一种更好的训练策略,对基于CBNet的检测器进行辅助监督。

2023-04-05 21:04:30 1553 1

原创 【持续学习】表格检测

本研究的目的是利用新数据持续训练网络,同时保留现有知识

2023-02-01 17:06:49 382

原创 【mmdetection】训练测试时用到的命令-自用

mmdetection的一些命令

2023-01-11 10:34:43 279

翻译 文档图像中页面对象检测的注意机制研究-Investigating Attention Mechanism for Page Object Detection in Document Images

用于文档图像分析的注意力机制研究

2023-01-07 12:38:11 676

原创 Mmdetection训练笔记

imgs_per_gpu表示一块gpu训练的图片数量,imgs_per_gpu的值会影响终端输出的显示

2023-01-05 14:52:49 860 1

翻译 用于表检测和结构识别的深度学习:综述

Deep learning for table detection and structurerecognition: A survey

2022-12-29 18:37:29 2467 3

原创 ICDAR2019数据集

ICDAR2019数据集下载

2022-11-08 14:26:20 985

原创 LGPMA:具有局部和全局金字塔掩码对齐的复杂表格结构识别

表格结构识别论文

2022-08-14 13:46:25 1101

翻译 CDeC-Net代码实现

cdec代码实现

2022-07-11 11:25:11 628

原创 关于YOLO V1的几点:

1、隐式编码学习:yolo是在整张图像上进行特征提取,所以能够学到目标和背景、目标和目标之间的关联程度,比起滑动窗口和region proposal会大大降低把背景当做目标的出错率;2、通用领域的模型,泛化能力强;3、对小目标识别性能差,准确率比两阶段网络低,但是速度快,可以达到实时(一般认为超过30FPS可以看作实时);4、每个grid cell 网格只能预测一类目标;5、平方和误差损失函数对分类问题不太适用,要加一个权重;增加包含目标的grid cell的权重,削减不包含目标的grid

2022-05-20 10:35:27 136

原创 (Transfer Learning and fine tuning)迁移学习与微调

迁移学习:借助预训练模型,泛化到我们自己的模型上举栗子VGG16网络,在ImageNet上已经训练好,是一个预训练模型,有1000个分类1、当我们的数据集较小时,只修改最后一层全连接层,冻结其余所有层的结构和权重;2、当我们的数据集较大时,修改所有全连接层,冻结其余所有卷积层的结构和权重;...

2022-05-14 11:32:50 335

原创 2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析

2021年5月12日收到,2021年6月4日接受,出版日期2021年6月9日,当前版本日期2021年6月24日。 摘要 - Abstract  表格识别的第一阶段是检测文档中的表格区域。随后,在第二阶段识别表格结构,以便从各个单元中提取信息。表格检测和结构识别是表格理解领域的关键问题。然而,由于表格中存在大量的多样性和不对称性,导致了表格分析是一项复杂的任务,因此它是文档图像分析中一个活跃的研究领域。图形处理单元计算能力的最新进展使深度神经网络的性能优于传统的最先进的机器学习方法。表格理解从深度

2022-05-13 12:22:14 4595

原创 ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过).科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通常以非结构化PDF格式提供。虽然PDF非常适合在画布上保存基本的视觉元素,如字符、线条、形状等,以便呈现给人类,但机器对PDF格式的自动处理带来了许多挑战。现有超过2.5万亿PDF文档,这些问题在许多其他重要应用领域也很普遍。从科学文献中自动提取信息的一个关键挑战是,文档中通常包含非自然语言的内容

2022-05-12 19:51:16 2185

原创 知识蒸馏概念

迁移学习侧重不同领域知识蒸馏侧重不同模型知识蒸馏模型就是把一个大的教师模型蒸馏成一个小的学生模型,教师模型会的多而且杂,体型大的网络。而学生网络小而轻量化。知识蒸馏就是模型压缩的一个手段。教师模型:学生模型:预训练的大模型,通过海量数据训练而成。这种大模型不能直接部署到终端设备上,因为小设备算力有限,如果要使用这些预训练的大模型,只能通过部署到云端、部署到数据中心使用,但是这样会受到网络延迟等问题。所以有了知识蒸馏。轻量化神经网络:1、压缩已经训练好的模型:知识蒸馏、权值量化、剪枝、注意力迁移

2022-05-11 12:58:05 627

原创 ScanSSD的github代码

ScanSSD: 文档图像中数学公式扫描SSD环境:Cuda 9.1.85 + Pytorch 1.1.0内容列表安装代码组织训练测试性能安装安装pytorch 克隆这个仓库(repository),需要python3按照这个链接上的说明下载数据集下载Visdom用于训练期间的实时损失可视化,这是Visdom的下载链接要在浏览器中使用Visdom:# First install Python server and client首先安装Python服务器和客户端pip inst

2022-05-07 10:33:58 329 5

原创 自注意力机制-李宏毅

只管知道有办法能让一句话、一段声音信号,一个图表(graph)转换为一堆向量,这是输入这种任务输出的话有四种可能性:1.一个向量对应一个标签,2.一组向量对应一个标签,3.输入的个数和输出不一致(比如中文翻译成英文,词的数量不一致)Sequence to Sequence :序列到序列的任务,(如翻译、语音识别)今天只讲,一个向量对应一个标签,该任务又称Sequence Labelingself attention :专注整个序列的信息FC:专注某个位置的信息下面看self ..

2022-04-16 18:49:48 3005

原创 (还没整理完)Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution

《基于感知损失函数的实时风格转换和超分辨率重建》笔记+转载翻译翻译地址在这儿:基于感知损失函数的实时风格转换和超分辨率重建 (zhwhong)原论文下载地址:点这儿笔记1.图像转换任务的一个处理方法是在有监督模式下训练一个前馈卷积神经网络,用逐像素差距作损失函数来衡量输出图像和输入图像的差距。用途:超分辨率重建,图像上色,图像分割,深度和表面预测等。优势:在测试时,只需要一次前馈的通过已训练好的网络。缺点:逐像素求差的损失函数无法抓住输入及输出图像在感知上的差距。举个例子,考虑两张一模一样的

2022-04-15 15:43:13 2284

原创 一图搞懂系列——选择性搜索(selective search)图解

红色框表示生成的region proposals合并最相似的两个框框,相似的指标是颜色,纹理,大小等等合并其实就是找两个框的外切矩形,然后把红色小框去掉,只剩下合并后的框继续合并,直到把初始的红色小框全部合并掉...

2022-04-06 20:29:03 542 1

原创 几种梯度下降法比较最小值与鞍点(SGD、Momentum、NAG、Adagrad、Adadelta与Rmsprop)

先上图:研一寒假导师要求我们几个把这两幅动图用程序画出来,当时搜遍了网上没找到源代码,甚至还去推特问了图的原作者,后来没登录过,不知道回没回我哈哈。下面是两幅图的代码,可能不是非常还原。然后可以自己改一下线条颜色注释等等,用matplotlib画图的基础知识可以看一下B站莫烦的视频,链接在这儿:【莫烦Python】Matplotlib Python 画图教程_哔哩哔哩_bilibili如果某天你发现自己要学习 Matplotlib, 很可能是因为:Matplotlib 是一个非常强大的 Python

2022-04-05 21:38:43 1224 1

原创 几种特殊的卷积(转置卷积,空洞/膨胀卷积····)

计算尺寸不被整除只在GoogLeNet中遇到过。卷积向下取整,池化向上取整。stride为1的时候,当kernel为 3 padding为1或者kernel为5 padding为2 一看就是卷积前后尺寸不变一:转置卷积上采样的方法举例:最近邻,双线性插值,双立方插值等转置卷积:上采样的一种方法,也被称为分数步长卷积或反卷积转置卷积在论文中:DCGAN比较容易理解的解释:转置卷积注:转置卷积会在生成的图像中造成棋盘效应(checkerboard artifacts).本文推荐在使用转置卷积进.

2022-03-28 20:30:07 5297

原创 在conda虚拟环境中安装cuda11.3

花了将近一天,显卡是RTX3050首先升级显卡驱动,从 这个软件中更新显卡驱动 实在装了好多遍还是不行的话,建议先卸载掉anaconda,然后下载最新版的anaconda 下载完后,进入到中,创建虚拟环境,运行如下指令 conda create -n 环境名称 python=3.X conda activate 环境名称#进入到虚拟环境 下载提速的话,就用清华源,运行下面的代码,先替换channel,运行6的代码之前先运行下面代码恢复默认源 conda config

2022-03-26 14:58:57 7935

转载 交叉熵,KL散度,JS散度和Wasserstein 距离定义

为了更好地求解Wasserstein 距离,引入谱归一化,引用一篇非常好的文章GAN 的谱归一化(Spectral Norm)和矩阵的奇异值分解关于矩阵奇异值的直观解释可以看这个B站视频【学长小课堂】什么是奇异值分解SVD--SVD如何分解时空矩阵_哔哩哔哩_bilibili本文截图自邱锡鹏老师的蒲公英书,整理自用...

2022-03-23 17:34:15 116

原创 力扣算法刷题(python的语法)持续更新中……

w, m, n = map(int,input().split())#输入三个数字,.split()括号内表示输入三个数字时的分隔符w= list(map(int,input()))#输入三个列表abs()#取绝对值--------------------------------------------------------------------set()函数的使用方法:(集合函数)# set() 是一个不允许内容重复的组合,而且set里的内容位置是随意的,所以不能用索引列出。可进行关系测试.

2022-03-23 17:11:45 313

转载 转载·图片修补 EdgeConnect 论文的阅读与翻译

图片修补 EdgeConnect 论文的阅读与翻译:生成边缘轮廓先验,再填补缺失内容原论文下载地址翻译声明hallucinating edges 边缘假想图 (通过不完整的图片,生成假想的边缘轮廓图片)edges 边缘、轮廓(在出现歧义的情况下,我会将「边缘」翻译成「轮廓」)edge detection 边缘检测算法(由于大家都翻译成「边缘检测」)image Completion /inpainting 图片修补fill the missing regions 填补缺失区域(为包含

2022-03-21 15:00:31 741

原创 (翻译自用)TG^2———IJDAR杂志论文

TG2: 用于恢复文档可读性和感知质量的文本引导转换器GAN摘要大多数侧重于数字化文本文档恢复的图像增强方法仅限于文本信息仍保留在输入图像中的情况,而这种情况可能通常不是这样。在这项工作中,我们提出了一种新的生成性文档恢复方法,该方法允许以目标文本转录的形式根据引导信号进行恢复,并且不需要成对的高质量和低质量图像进行训练。我们介绍了一种带有隐式文本到图像对齐模块的神经网络结构。我们展示了在修复、去模糊和去模糊任务上的良好结果,并且我们展示了经过训练的模型可以用于手动修改文档图像中的文本。一项用户研究表明

2022-03-18 16:31:24 4376

原创 (翻译自用)TableSegNet———IJDAR杂志论文

TableSegNet(表格分割网络):一种用于文档图像中表格检测和分割的全卷积网络摘要随着图像目标检测技术的发展,深卷积神经网络被应用于文档图像分析领域。与一般彩色和模式丰富的对象不同,文档图像中的表格具有限制深度学习结构能力的属性。尺寸和纵横比的显著变化以及文档组件之间的局部相似性是主要的挑战,需要全局特征进行检测,同时需要局部特征来分离附近的对象。为了应对这些挑战,我们提出了TableSegNet,这是一种紧凑的全卷积网络体系结构,可以同时检测和分离表格。TableSegNet由一条深卷积路径和一

2022-03-18 11:11:04 4686

转载 关于不同卷积核大小的思考

转自关于不同卷积核大小的思考 - 简书未经同意,不得转载 一、1x1卷积核的作用 (1)实现跨通道的交互和信息整合 使用1x1卷积核,其实就是对不同channel间的信息做线性组合的一个变换过程。比如输入为3x3...https://www.jianshu.com/p/bfd7011dd0bb...

2022-03-11 16:28:32 604

原创 [例题]基于Bayes估计的传感器检测数据融合

利用8个传感器对一个恒温槽的温度进行测量,已知恒温槽温度满足正态分布置信距离矩阵D的python代码如下import scipy.integrate as integrateimport numpy as npxi = [848.1,850.5,851.9,849.9,854.6,849.3,848.0,848.3]xj = [848.1,850.5,851.9,849.9,854.6,849.3,848.0,848.3]di = [25.73,23.81,24.95,25.75,35

2022-03-10 20:41:57 673

原创 [蓝桥杯] 奇妙的数字 代码解析(Python 实现)

nums = [str(x) for x in range(10)]#创建 0 到 9 十个数字字符串的列表nums = set(nums)#对上述列表随机排序,并转化为集合形式res = 1 #计数器,从 1 开始while True: temp = ''#创建一个空字符串 temp += str(res**2) #空字符串 连接上 目标数字的平方,类似于 “1”+“1” = “11” temp += str(res**3)#连接上 目标数字的...

2022-03-09 20:44:21 885

原创 [蓝桥杯] 移动距离 代码解析(Python 实现)

源代码来自https://blog.csdn.net/d_l_w_d_l_w

2022-03-09 19:57:07 659

原创 python蟒蛇书指令(部分)自用整理

name.title()#首字母大写name.upper()#全变大写name.lower()#全变小写"\t\n"#字符串里面添加制表符或换行符.strip()#删除字符串两端空白.lstrip()#删除字符串左端空白.rstrip()#删除字符串右端空白#方括号[]来表示列表,并用逗号来分隔其中的元素。#用list[number]访问列表,list[-1]表示列表最后一个元素list[0] = '某某某'#修改列表中第一个元素的值list = []#创建空列表list.appen.

2022-03-09 17:55:34 738

转载 二分法的算法及应用场景(只更新了一种)

几种常见的应用场景:寻找一个数、寻找左侧边界、寻找右侧边界细节(不等号是否应该带等号,mid 是否应该加一等等)int binarySearch(int[] nums, int target) { int left = 0; int right = nums.length - 1; // 注意 while(left <= right) { int mid = left + (right - left) / 2; if(nums[mi

2022-03-04 17:05:26 852 1

原创 【完美运行+每行代码解释】python蓝桥杯练习-芯片测试

n = int(input())#输入芯片个数narr = [list(map(int, input())) for i in range(n)]#输入n行n列的二维列表tmp = [False] * n#假设输出n个芯片都为故障芯片for i in range(n):#循环遍历每一行 count = 0#此处数字代表好芯片的初始个数为0,(然后慢慢找出好芯片再累加个数) for j in range(n):#循环遍历每一列 if arr[i][j] == 1:#假设.

2022-03-04 10:32:53 765

原创 《PyTorch深度学习实践》02线性模型-河工大

代码版在github链接:02-线性模型

2021-11-06 18:52:16 395

原创 十分钟入门NumPy代码版整理

来自B站up奇乐编程学院的视频,用作个人学习笔记,视频链接在文章最后写在前面NumPy可以表示一维数组,二维矩阵和更高维的数据,可以对数组中的数据进行非常高效的运算,可以用作数据统计、图像处理、线性代数、傅里叶变换等。Python很慢,NumPy快是因为底层是C语言实现的目标代码,对于要运算的数据,要预先表示成NumPy数组的形式,即向量化,要想更快的话,可以用GPU对数据进行并行运算。1.基本命令>>>import numpy as np ...

2021-11-05 12:16:19 465

原创 04数据操作+数据预处理笔记-李沐老师【动手深度学习V2】

一、数据操作部分(代码和部分注解)代码中不懂的部分(搜的博客):range,xrange,arange的区别:cat和dim是什么意思:二、数据预处理部分(代码和部分注解)代码中不懂的部分(搜的博客):pd.get_dummies()用法:reshape和view的区别os.mkdir()与os.makedirs()的使用方法os.path.****的各种命令,如下零散问题:1.什么是 import os #(1)为什...

2021-11-03 20:00:42 761

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除