郑建宇Jy-CSDN博客

原创 LORE-TSR代码复现

LORE-TSR的PyTorch正式实施。LORE可以通过将TSR建模为逻辑位置回归，以端到端的方式执行表结构识别（TSR）。该模型简化了TSR流程，作为一个基于关键点的类检测器框架。LORE-TSR在实现中表现出良好的效率和性能，这对未来的TSR模型有一定的借鉴意义。

2023-06-09 12:28:19 950 1

原创 CBNetV2:一种用于目标检测的复合骨干网络体系结构

现代性能最好的对象检测器在很大程度上依赖于骨干网络，骨干网络的进步通过探索更有效的网络结构带来了一致的性能增益。在本文中，我们提出了一种新颖而灵活的主干框架，即CBNetV2，以在预训练微调范式下使用现有的开源预训练主干来构建高性能检测器。特别是，CBNetV2体系结构将多个相同的主干分组，这些主干通过复合连接进行连接。具体而言，它集成了多个骨干网络的高级别和低级别特征，并逐渐扩展感受野，以更有效地执行对象检测。我们还提出了一种更好的训练策略，对基于CBNet的检测器进行辅助监督。

2023-04-05 21:04:30 1719 1

原创【持续学习】表格检测

本研究的目的是利用新数据持续训练网络，同时保留现有知识

2023-02-01 17:06:49 397

原创【mmdetection】训练测试时用到的命令-自用

mmdetection的一些命令

2023-01-11 10:34:43 288

翻译文档图像中页面对象检测的注意机制研究-Investigating Attention Mechanism for Page Object Detection in Document Images

用于文档图像分析的注意力机制研究

2023-01-07 12:38:11 695

原创 Mmdetection训练笔记

imgs_per_gpu表示一块gpu训练的图片数量，imgs_per_gpu的值会影响终端输出的显示

2023-01-05 14:52:49 879 1

翻译用于表检测和结构识别的深度学习：综述

Deep learning for table detection and structurerecognition: A survey

2022-12-29 18:37:29 2610 3

原创 ICDAR2019数据集

ICDAR2019数据集下载

2022-11-08 14:26:20 1004

原创 LGPMA:具有局部和全局金字塔掩码对齐的复杂表格结构识别

表格结构识别论文

2022-08-14 13:46:25 1130

翻译 CDeC-Net代码实现

cdec代码实现

2022-07-11 11:25:11 647

原创关于YOLO V1的几点：

1、隐式编码学习：yolo是在整张图像上进行特征提取，所以能够学到目标和背景、目标和目标之间的关联程度，比起滑动窗口和region proposal会大大降低把背景当做目标的出错率；2、通用领域的模型，泛化能力强；3、对小目标识别性能差，准确率比两阶段网络低，但是速度快，可以达到实时（一般认为超过30FPS可以看作实时）；4、每个grid cell 网格只能预测一类目标；5、平方和误差损失函数对分类问题不太适用，要加一个权重；增加包含目标的grid cell的权重，削减不包含目标的grid

2022-05-20 10:35:27 141

原创（Transfer Learning and fine tuning）迁移学习与微调

迁移学习：借助预训练模型，泛化到我们自己的模型上举栗子VGG16网络，在ImageNet上已经训练好，是一个预训练模型，有1000个分类1、当我们的数据集较小时，只修改最后一层全连接层，冻结其余所有层的结构和权重；2、当我们的数据集较大时，修改所有全连接层，冻结其余所有卷积层的结构和权重；...

2022-05-14 11:32:50 346

原创 2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析

2021年5月12日收到，2021年6月4日接受，出版日期2021年6月9日，当前版本日期2021年6月24日。摘要 - Abstract 表格识别的第一阶段是检测文档中的表格区域。随后，在第二阶段识别表格结构，以便从各个单元中提取信息。表格检测和结构识别是表格理解领域的关键问题。然而，由于表格中存在大量的多样性和不对称性，导致了表格分析是一项复杂的任务，因此它是文档图像分析中一个活跃的研究领域。图形处理单元计算能力的最新进展使深度神经网络的性能优于传统的最先进的机器学习方法。表格理解从深度

2022-05-13 12:22:14 4705

原创 ICDAR 2021竞赛科学文献分析——表格识别综述部分（剩余部分是文档布局分析）

任务B为表格识别部分，本文暂只看表格识别摘要（不重要，想直接看表格识别部分可以跳过）.科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而，科学文献通常以非结构化PDF格式提供。虽然PDF非常适合在画布上保存基本的视觉元素，如字符、线条、形状等，以便呈现给人类，但机器对PDF格式的自动处理带来了许多挑战。现有超过2.5万亿PDF文档，这些问题在许多其他重要应用领域也很普遍。从科学文献中自动提取信息的一个关键挑战是，文档中通常包含非自然语言的内容

2022-05-12 19:51:16 2229

原创知识蒸馏概念

迁移学习侧重不同领域知识蒸馏侧重不同模型知识蒸馏模型就是把一个大的教师模型蒸馏成一个小的学生模型，教师模型会的多而且杂，体型大的网络。而学生网络小而轻量化。知识蒸馏就是模型压缩的一个手段。教师模型：学生模型：预训练的大模型，通过海量数据训练而成。这种大模型不能直接部署到终端设备上，因为小设备算力有限，如果要使用这些预训练的大模型，只能通过部署到云端、部署到数据中心使用，但是这样会受到网络延迟等问题。所以有了知识蒸馏。轻量化神经网络：1、压缩已经训练好的模型：知识蒸馏、权值量化、剪枝、注意力迁移

2022-05-11 12:58:05 643

原创 ScanSSD的github代码

ScanSSD: 文档图像中数学公式扫描SSD环境：Cuda 9.1.85 + Pytorch 1.1.0内容列表安装代码组织训练测试性能安装安装pytorch 克隆这个仓库（repository），需要python3按照这个链接上的说明下载数据集下载Visdom用于训练期间的实时损失可视化，这是Visdom的下载链接要在浏览器中使用Visdom：# First install Python server and client首先安装Python服务器和客户端pip inst

2022-05-07 10:33:58 356 5

原创自注意力机制-李宏毅

只管知道有办法能让一句话、一段声音信号，一个图表（graph）转换为一堆向量，这是输入这种任务输出的话有四种可能性：1.一个向量对应一个标签，2.一组向量对应一个标签，3.输入的个数和输出不一致（比如中文翻译成英文，词的数量不一致）Sequence to Sequence :序列到序列的任务，（如翻译、语音识别）今天只讲，一个向量对应一个标签，该任务又称Sequence Labelingself attention ：专注整个序列的信息FC：专注某个位置的信息下面看self ..

2022-04-16 18:49:48 3017

原创（还没整理完）Perceptual Losses for Real-Time Style Transfer and Super-Resolution and Super-Resolution

《基于感知损失函数的实时风格转换和超分辨率重建》笔记+转载翻译翻译地址在这儿：基于感知损失函数的实时风格转换和超分辨率重建 (zhwhong)原论文下载地址：点这儿笔记1.图像转换任务的一个处理方法是在有监督模式下训练一个前馈卷积神经网络，用逐像素差距作损失函数来衡量输出图像和输入图像的差距。用途：超分辨率重建，图像上色，图像分割，深度和表面预测等。优势：在测试时，只需要一次前馈的通过已训练好的网络。缺点：逐像素求差的损失函数无法抓住输入及输出图像在感知上的差距。举个例子，考虑两张一模一样的

2022-04-15 15:43:13 2303

原创一图搞懂系列——选择性搜索（selective search）图解

红色框表示生成的region proposals合并最相似的两个框框，相似的指标是颜色，纹理，大小等等合并其实就是找两个框的外切矩形，然后把红色小框去掉，只剩下合并后的框继续合并，直到把初始的红色小框全部合并掉...

2022-04-06 20:29:03 578 1

原创几种梯度下降法比较最小值与鞍点（SGD、Momentum、NAG、Adagrad、Adadelta与Rmsprop）

先上图：研一寒假导师要求我们几个把这两幅动图用程序画出来，当时搜遍了网上没找到源代码，甚至还去推特问了图的原作者，后来没登录过，不知道回没回我哈哈。下面是两幅图的代码，可能不是非常还原。然后可以自己改一下线条颜色注释等等，用matplotlib画图的基础知识可以看一下B站莫烦的视频，链接在这儿：【莫烦Python】Matplotlib Python 画图教程_哔哩哔哩_bilibili如果某天你发现自己要学习 Matplotlib, 很可能是因为:Matplotlib 是一个非常强大的 Python

2022-04-05 21:38:43 1247 1

原创几种特殊的卷积（转置卷积，空洞/膨胀卷积····）

计算尺寸不被整除只在GoogLeNet中遇到过。卷积向下取整，池化向上取整。stride为1的时候，当kernel为 3 padding为1或者kernel为5 padding为2 一看就是卷积前后尺寸不变一：转置卷积上采样的方法举例：最近邻，双线性插值，双立方插值等转置卷积：上采样的一种方法，也被称为分数步长卷积或反卷积转置卷积在论文中：DCGAN比较容易理解的解释：转置卷积注：转置卷积会在生成的图像中造成棋盘效应(checkerboard artifacts).本文推荐在使用转置卷积进.

2022-03-28 20:30:07 5324

原创在conda虚拟环境中安装cuda11.3

花了将近一天，显卡是RTX3050首先升级显卡驱动，从这个软件中更新显卡驱动实在装了好多遍还是不行的话，建议先卸载掉anaconda，然后下载最新版的anaconda 下载完后，进入到中，创建虚拟环境，运行如下指令 conda create -n 环境名称 python=3.X conda activate 环境名称#进入到虚拟环境下载提速的话，就用清华源，运行下面的代码，先替换channel，运行6的代码之前先运行下面代码恢复默认源 conda config

2022-03-26 14:58:57 8099

转载交叉熵，KL散度，JS散度和Wasserstein 距离定义

为了更好地求解Wasserstein 距离，引入谱归一化，引用一篇非常好的文章GAN 的谱归一化(Spectral Norm)和矩阵的奇异值分解关于矩阵奇异值的直观解释可以看这个B站视频【学长小课堂】什么是奇异值分解SVD--SVD如何分解时空矩阵_哔哩哔哩_bilibili本文截图自邱锡鹏老师的蒲公英书，整理自用...

2022-03-23 17:34:15 118

原创力扣算法刷题（python的语法）持续更新中……

w, m, n = map(int,input().split())#输入三个数字，.split()括号内表示输入三个数字时的分隔符w= list(map(int,input()))#输入三个列表abs()#取绝对值--------------------------------------------------------------------set()函数的使用方法：（集合函数）# set() 是一个不允许内容重复的组合，而且set里的内容位置是随意的，所以不能用索引列出。可进行关系测试.

2022-03-23 17:11:45 329

转载转载·图片修补 EdgeConnect 论文的阅读与翻译

图片修补 EdgeConnect 论文的阅读与翻译：生成边缘轮廓先验，再填补缺失内容原论文下载地址翻译声明hallucinating edges 边缘假想图（通过不完整的图片，生成假想的边缘轮廓图片）edges 边缘、轮廓（在出现歧义的情况下，我会将「边缘」翻译成「轮廓」）edge detection 边缘检测算法（由于大家都翻译成「边缘检测」）image Completion /inpainting 图片修补fill the missing regions 填补缺失区域（为包含

2022-03-21 15:00:31 752

原创（翻译自用）TG^2———IJDAR杂志论文

TG2: 用于恢复文档可读性和感知质量的文本引导转换器GAN摘要大多数侧重于数字化文本文档恢复的图像增强方法仅限于文本信息仍保留在输入图像中的情况，而这种情况可能通常不是这样。在这项工作中，我们提出了一种新的生成性文档恢复方法，该方法允许以目标文本转录的形式根据引导信号进行恢复，并且不需要成对的高质量和低质量图像进行训练。我们介绍了一种带有隐式文本到图像对齐模块的神经网络结构。我们展示了在修复、去模糊和去模糊任务上的良好结果，并且我们展示了经过训练的模型可以用于手动修改文档图像中的文本。一项用户研究表明

2022-03-18 16:31:24 4398

原创（翻译自用）TableSegNet———IJDAR杂志论文

TableSegNet（表格分割网络）：一种用于文档图像中表格检测和分割的全卷积网络摘要随着图像目标检测技术的发展，深卷积神经网络被应用于文档图像分析领域。与一般彩色和模式丰富的对象不同，文档图像中的表格具有限制深度学习结构能力的属性。尺寸和纵横比的显著变化以及文档组件之间的局部相似性是主要的挑战，需要全局特征进行检测，同时需要局部特征来分离附近的对象。为了应对这些挑战，我们提出了TableSegNet，这是一种紧凑的全卷积网络体系结构，可以同时检测和分离表格。TableSegNet由一条深卷积路径和一

2022-03-18 11:11:04 4710

jyjy0608的博客