深度学习
文章平均质量分 91
记录深度学习相关的知识,包括调参、损失、卷积、池化
CharlesWu123
分享平时积累与学习的内容,研究方向:OCR,图像,深度学习。
展开
-
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读
受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。原创 2023-12-20 18:13:31 · 1511 阅读 · 1 评论 -
多模态大模型 Monkey、TextMonkey、Mini-Monkey ---- 论文阅读
TextMonkey为了解决大模型对于文档图像的分辨率问题,使用了滑动窗口并且采用了零初始化的移位窗口注意力来对多窗口建立关系。为了解决视觉 token 的冗余,提出使用 token 重采样来有效减少 token 的数量。同时针对大模型容易出现的幻觉问题,加入了面向文本的任务,增强模型对空间关系的感知和理解。原创 2024-03-31 16:09:53 · 1510 阅读 · 0 评论 -
多模态大模型技术详解(图像分块、特征对齐、训练)
这篇文档主要讲解目前比较流行的缝合式的多模态大模型的基本模块。缝合式多模态大模型的架构:包括视觉编码器、视觉文本对齐层、大语言模型,流程主要是通过视觉编码器提取图像特征,再通过视觉文本对齐层将图像和文本特征对齐,也包括对视觉特征的在提取,主要是为了减少视觉 token 的数量,然后将视觉特征和文本特征一起输入到大模型中获取结果。原创 2024-08-24 15:01:14 · 1708 阅读 · 0 评论 -
PHMOSpell: Phonological and Morphological Knowledge Guided Chinese Spelling Check ---- 论文阅读
据统计,大多数中文拼写错误都属于字音或者字形错误。然后,之前的方法很少利用汉字的字音和字形知识,或者严重依赖外部资源来模拟它们的相似性。为了利用汉字的字音和字形,本文提出了端到端的训练模型 PHMOSpell。1. 从多模态中获取汉字的字音和字形知识,并将其应用于 CSC2. 使用一种自适应的门控机制,以端到端的方式有效地将多模态信息整合到预训练语言模型中原创 2023-06-04 01:08:39 · 304 阅读 · 0 评论 -
Dynamic Connected Networks for Chinese Spelling Check ---- 论文阅读
为了解决以上问题,本文提出了动态连接网络(Dynamic Connected Networks - DCN),包括拼音增强候选生成器(Pinyin Enhanced Candidate Generator)和动态连接评分器(Dynamic Connected Scorer - DCScorer)。此网络可以学习到输出汉字之间的依赖关系,缓解不连贯问题。首先,本文使用 RoBERTa 和拼音增强候选生成器结合拼音信息,并在每个位置生成 k 个候选字符。原创 2023-06-03 17:04:40 · 621 阅读 · 0 评论 -
UDOP:Unifying Vision, Text, and Layout for Universal Document Processing ---- 论文阅读
文档人工智能具有独特的挑战,使其有别于其他视觉语言领域。例如,文本和视觉模态之间的跨模态交互在文档中比在常规视觉语言数据中强得多,因为文本模态在视觉上位于图像中。此外,下游任务在领域和范例上是多样化的,例如,文档问答、布局检测、文档分类、信息提取等。这增加了两个挑战如何利用图像、文本和布局模式之间的强相关性,并将它们统一对整个文档进行建模?模型如何有效地有效地学习不同领域的不同视觉、文本和布局任务?原创 2023-04-27 19:59:04 · 1346 阅读 · 0 评论 -
Neural Collaborative Graph Machines for Table Structure Recognition ----论文阅读
本文认为对于不同的表格,不同模态的关系归纳偏差将是高度不一致的,不同的模态应该以不同的模式相互协作。在本文中,把模态内部交互定义为异构表结构识别(Hetero-TSR)问题。提出了一种使用堆叠协作模块的新型Neural Collaborative Graph Machines(NCGM),它可以交替提取模态内上下文并以分层方式对模态间交互进行建模。可以更稳健地表示表格元素的内部模态关系,从而显着提高识别性能。本文使用文本框作为表元素,并分别从维度中提取它们的多模态特征嵌入。原创 2022-11-14 17:15:41 · 911 阅读 · 1 评论 -
TSRFormer: Table Structure Recognition with Transformers ----论文阅读
TSRFormer,可以从各种表格图像中稳健地识别具有几何变形的复杂表格的结构,可以处理几何扭曲甚至弯曲的表格,有边框和无边框的表格。此方法是把表格分隔线预测当作线回归问题而不是图像分割问题,并提出了一种新的基于 DETR 的分隔线预测方法,称为 Separator REgression TRansformer (SepRETR),直接从表格图像中预测分割线。在分割线预测之后,使用基于简单关系网络的单元合并模块来恢复合并单元。原创 2022-11-12 14:47:41 · 4260 阅读 · 4 评论 -
tensorboard 查看训练过程(远程服务器)
tensorboard 查看训练过程(远程服务器)原创 2022-10-10 17:05:13 · 1555 阅读 · 2 评论 -
表格识别技术综述
近几年表格识别技术的总览,包括ICDAR2019、ICDAR2021、ICCV2021、ACM MM 2021、各大厂表格识别技术原创 2022-09-06 17:44:07 · 6593 阅读 · 13 评论 -
图像质量评价(IQA)综述
对于图像处理领域来讲,一个首要的目标是去提升处理后的图像的质量,而这个质量应该更符合人类的感知,即:如何去评判一个算法所得到的图像是好是坏?这不应该单单是靠着某个指标来决定的,而是应该依赖于人类的观感。简而言之,这个图像处理算法所得到的结果图片,只有人类看上去感觉更"好看",我们才说 A 是一个好算法。那接下来得问题是:不能总是靠人来帮助我们构建好的算法,因为人力资源是很昂贵的,因此我们就需要 图像质量评价 (IQA)算法。...原创 2021-05-08 17:24:01 · 21021 阅读 · 0 评论 -
RepVGG: Making VGG-style ConvNets Great Again —— 论文阅读笔记
RepVGG论文总览方法多分支训练结构重参数化网络架构实验局限性Paper : https://arxiv.org/abs/2101.03697Code : https://github.com/DingXiaoH/RepVGGMegEngine : https://github.com/megvii-model/RepVGG论文总览本文通过结构重参数化,只使用 3x3 卷积和 ReLU 激活函数的单路极简架构在速度和性能上达到 SOTA 水平。尽管许多复杂的卷积网络都比简单的卷积网络提原创 2021-03-29 15:17:01 · 287 阅读 · 3 评论 -
DETR : End-to-End Object Detection with Transformers
通过 CNN 提取目标特征,使用 1x1 卷积降维, 随后把特征转换为序列输入到 Transformer Encoder 中,使用学习的 N 个 object query 和 Encoder 的输出作为 Transformer Decoder 的输入得到 N 解码结果,然后把这 N 个解码结果通过前馈网络直接得到相对坐标的预测以及类别。原创 2020-07-10 19:27:32 · 1083 阅读 · 1 评论 -
Res2Net: A New Multi-scale Backbone Architecture论文解读以及 tensorflow-slim 实现
文章目录原理实现论文展示效果论文:https://arxiv.org/abs/1904.01169原理Res2Net在多个尺度上表示特征并且增加了每个网络层的感受野范围。将输入feature map划分为几个组。一组卷积核首先从一组输入feature map中提取特征。然后将输出的feature map与另一组输入feature map再通过另一组卷积核提取特征。这个过程重复几次,...原创 2019-04-10 09:19:07 · 1419 阅读 · 0 评论 -
Mask Scoring R-CNN 论文阅读笔记
论文地址:https://arxiv.org/abs/1903.00241代码地址:https://github.com/zjhuang22/maskscoring_rcnn基于Mask-RCNN创新点:增加了一个MaskIoU head,来计算预测mask和ground truth mask的iou的分数根据分类得分和iou分数来计算最后的mask score(如果分类得分高,...原创 2019-03-06 21:33:40 · 2214 阅读 · 0 评论 -
损失函数整理(分类和回归)
0-1损失函数(zero-one loss)、绝对值损失、指数损失、Hinge 损失、感知损失、交叉熵损失(CE)、权重交叉熵损失(WCE)、Focal Loss均方差、平均绝对误差、Huber Loss(Smooth L1 Loss)、分位数回归损失、IoU Loss、GIoU Loss、DIoU Loss、CIoU Loss、EIoU Loss、Focal Loss原创 2021-03-18 19:25:10 · 9276 阅读 · 1 评论