论文学习
文章平均质量分 77
学习相关论文的笔记和想法
Liekkas Kono
开源组织RapidAI主理人。RapidOCR核心开发者
展开
-
轻量Backbone论文汇总
Rewrite the StarsPDF | Code原创 2024-05-14 16:26:40 · 433 阅读 · 0 评论 -
OCR-free相关论文梳理
Donut的结构有些像Text Spotting任务(检测和识别都在一个模型中完成),但是Donut做的要比Text Spotting任务更进一步。该工作将OCR中多个子任务都集成到了一个End-to-End的网络中,网络是基于transformer的编解码结构。这应该是第一篇将Transformer 编解码结构应用到整个OCR任务中的工作,包括文档分类、文档信息提取和文档问答三个任务。现阶段,Transformer技术的发展,让通用文档理解任务变得不再是那么遥不可及,出现了很多OCR-free的工作。原创 2024-03-13 08:28:31 · 1035 阅读 · 0 评论 -
近年来文本检测相关工作梳理
STKM工作是直接从image representations中decoding文本信息,本篇工作则通过仔细设计的pre-training任务(image-text contrasitive learning, masked language modeling, word-in-image predictioin)中,增加文本信息和图像信息的mutual alignment和cross-modal interaction,从而进一步增强backbone的能力。因此,两阶段的OCR方案一直是优先考虑的。原创 2024-03-09 20:42:43 · 1107 阅读 · 0 评论 -
论文阅读:Vary-toy论文阅读笔记
如何基于Vary-tiny + pipeline产生一个更加practical vision vocabulary?如何在不损坏Qwen-1.8B模型特征前提下,利用new vision vocabulary来使Vary-toy-1.8B产生新的特征?原创 2024-01-24 21:46:53 · 1321 阅读 · 0 评论 -
论文阅读:Vary论文阅读笔记
Figure 1:主要想说明Vary在产生vocabulary时,采用两阶段策略:在第一阶段,通过自回归方法,先产生一个新的vocabulary,在第二阶段,将新的vocabulary与原始的融合,作为一个新的vocabulary。该部分主要聚焦于fine-grained perception,例如文档智能和图表理解,说是为了弥补CLIP的不足,因此这部分网络输入都是图像,没有文本输入的分支。因此,就以旷视出的这篇工作Vary作为切入点,借此来学习LLM在文档智能领域的相关工作。原创 2024-01-18 22:12:34 · 1488 阅读 · 0 评论 -
论文阅读:TinyGPT-V 论文阅读及源码梳理对应
QFormer来自论文BCLI2工作中,用来弥补Frozen Image encoder和Frozen LLM之间的gap。将prompt除Image部分其他部分依次转为向量。再将两者mix,得到最终向量。基于Bert作为初始化的。原创 2024-01-11 21:52:22 · 1376 阅读 · 3 评论 -
论文阅读:Segment Anything之阅读笔记
论文阅读:Segment Anything之阅读笔记原创 2023-07-05 10:56:49 · 1306 阅读 · 0 评论 -
论文阅读: (CVPR2023 SDT )基于书写者风格和字符风格解耦的手写文字生成及源码对应
论文阅读: (CVPR2023 )基于书写者风格和字符风格解耦的手写文字生成及源码对应原创 2023-06-28 09:40:05 · 1366 阅读 · 0 评论 -
英文论文写作常用例句整理汇总(持续更新)
英文论文写作常用例句整理汇总(持续更新)原创 2023-03-07 16:45:29 · 438 阅读 · 0 评论 -
日常遇见英文句式汇总(持续更新)
日常遇见英文句式汇总(持续更新)原创 2023-03-09 10:53:57 · 99 阅读 · 0 评论 -
论文阅读:端到端文本检测和识别算法ABCNetv2+源码对应梳理
论文阅读:端到端文本检测和识别算法ABCNetv2+源码对应梳理原创 2021-11-30 15:05:43 · 7137 阅读 · 32 评论 -
论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读
论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读原创 2022-06-03 20:41:22 · 3535 阅读 · 11 评论 -
深度学习中的高阶特征
深度学习中的高阶特征原创 2019-09-15 12:54:20 · 6281 阅读 · 0 评论 -
论文--计算机视觉中的注意力机制
计算机视觉中用到的注意力机制模块原创 2019-09-28 11:57:11 · 3728 阅读 · 3 评论 -
论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)
论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)原创 2022-01-14 09:26:20 · 4259 阅读 · 0 评论 -
论文:Hourglass Module相关整理
论文:Hourglass Module相关整理原创 2019-12-30 16:40:33 · 761 阅读 · 0 评论 -
论文阅读:(CVPR 2020 Oral)针对长尾分布识别任务的双边分支网络BBN
论文阅读:(CVPR 2020 Oral)针对长尾分布识别任务的双边分支网络BBN原创 2020-04-07 18:24:33 · 1780 阅读 · 4 评论 -
论文阅读:(AAAI2021) 端对端文本检测和识别PGNet + PaddleOCR源码对应
论文阅读:(AAAI2021) 端对端文本检测和识别PGNet + PaddleOCR源码对应原创 2021-12-01 14:39:24 · 1240 阅读 · 1 评论 -
论文阅读:(AAAI 2019)M2det: A single-shot object detector based on multi-level feature pyramid network
论文阅读:(AAAI 2019)M2det: A single-shot object detector based on multi-level feature pyramid network原创 2019-12-29 16:28:33 · 353 阅读 · 4 评论 -
论文阅读:(金连文 2021) 自然场景文本检测与识别中的深度学习方法综述
华南理工大学 金连文老师自然场景文本检测与识别中的深度学习方法综述原创 2021-06-05 11:30:16 · 1334 阅读 · 1 评论 -
论文阅读:(AAAI2020) 场景文本检测 DBNet + PaddleOCR源码对应
DBNet论文和PaddleOCR中对应源码,对应学习原创 2021-03-29 22:50:59 · 2004 阅读 · 5 评论