AIGCmagic社区-CSDN博客

原创多模态文档理解：多任务通用OCR2.0模型

模型链接：https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0代码链接：https://github.com/Ucas-HaoranWei/GOT-OCR2.0/论文链接：https://arxiv.org/abs/2409.01704。

2024-09-30 16:32:15 352

原创 AI多模态基础知识点：LLM小白也能看懂的分词（tokenization）解读

探索AI的无限可能，加入“AIGCmagic”社区，让AIGC科技点亮生活〕本文作者：AIGCmagic社区刘一手。

2024-09-30 14:51:20 480

原创多模态文档理解：一文读懂mPLUG-DocOwl系列模型

结果表明，初始化为更强的通用MLLMs带来了更好的文本丰富图像理解性能，调整视觉编码器显著提高了文档理解性能，H-Reducer在保持丰富文本信息和视觉特征对齐方面表现出色，统一结构学习显著提高了不同领域的性能。特别是，通过引入基于交叉注意力的高分辨率全压缩模块和三阶段训练框架，DocOwl2在保持大多数视觉信息的同时，显著减少了视觉令牌的数量，提高了推理速度和模型性能。具体来说，现有的MLLMs在处理文本丰富的图像（如文档、网页、表格和图表）时，缺乏对文本和结构信息的通用理解能力。

2024-09-20 14:29:34 918

原创论文解读：利用大模型进行基于上下文的OCR校正

研究问题：这篇文章要解决的问题是如何利用预训练的语言模型（LMs）来改进光学字符识别（OCR）的质量，特别是针对报纸和期刊等复杂布局的文档。研究难点：该问题的研究难点包括：OCR技术在处理复杂布局的报纸和期刊时容易出现错误；现有的后OCR校正方法效果有限；如何有效利用语言模型的上下文自适应能力来提高OCR质量。相关工作：该问题的研究相关工作有：基于众包校正的方法、在线安全测试、以及机器学习方法等。然而，2017年ICADAR后OCR校正竞赛发现，只有约一半的提交方法能够提高OCR质量。

2024-09-12 17:48:20 1372

原创 MME-RealWorld：您的多模态大型语言模型能挑战高分辨率的真实世界场景吗？这些场景对人类来说都非常困难！

论文名称：MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?论文链接：https://arxiv.org/abs/2408.13257项目主页：https://mme-realworld.github.io/代码链接：https://github.com/yfzhang114/MME-RealWorld。

2024-09-12 16:53:21 1232

原创 CMM-Math：中文多模态数学评估数据集

研究问题：这篇文章要解决的问题是如何评估和提升大型多模态模型（LMMs）在数学推理方面的能力。具体来说，现有的文本数学推理数据集主要关注英语，缺乏中文的多模态数学数据集，且这些数据集在问题的复杂性和多样性方面存在不足。研究难点：该问题的研究难点包括：现有数据集主要集中在文本信息，忽略了问题的视觉上下文；现有的多模态数学数据集在规模和多样性方面有限，无法全面评估和提升LMMs的性能。相关工作。

2024-09-12 12:33:48 1103

原创 AI多模态模型架构之模态生成器：Modality Generator

模态编码器(Modality Encoder)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

2024-08-25 21:43:16 930

原创多模态基础模型：一文读懂LLAVA系列模型

LLAVA系列多模态大模型以其强大的表现力和广泛的应用前景，吸引了众多科研人员和企业关注。本文将为您带来LLAVA多模态大模型系列的深度解读，从原始论文中抽丝剥茧，带您领略这一前沿技术的魅力。

2024-08-25 19:58:20 1843

原创 SAM2论文核心速览

这种内存机制使得SAM 2能够在视频处理过程中记住之前的对象状态和交互信息，从而在生成掩码预测时能够考虑到这些历史信息，提高视频分割的准确性和效率。这个阶段收集了16K个掩码。：在9个密集标注的视频数据集中，SAM 2在交互式离线评估中使用了3次点击，平均J&F指标优于现有的XMem++和Cutie基线方法，显示出更高的分割准确性和更少的交互次数。：在17个视频分割和37个单图像分割的零样本基准测试中，SAM 2表现出色，特别是在视频分割任务中，SAM 2在9个密集标注的视频数据集中均优于现有的基线方法。

2024-08-18 18:43:46 820

原创 AI视频实战教程：DiffIR2VR-Zero-模糊视频8K高清修复技术

使用扩散模型批量处理低质量 (LQ) 视频，并在每批中随机采样关键帧。(a) 在扩散去噪过程开始时，分层潜在扭曲通过关键帧之间的潜在扭曲在全局提供粗略的形状指导，并通过在批次内传播这些潜在扭曲在局部提供粗略的形状指导。(b) 在大部分去噪过程中，标记在自注意力层之前合并。对于下采样块，使用光流来查找标记之间的对应关系，对于上采样块，利用余弦相似度。这种混合流引导、空间感知的Token合并通过利用流和空间信息准确地识别Token之间的对应关系，从而增强Token级别的整体一致性。

2024-07-30 23:46:04 667

原创 AI多模态模型架构之输出映射器：Output Projector

模态编码器(Modality Encoder)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

2024-07-30 23:35:28 1272

原创国产大模型的逆袭：技术路径的策略与实践

四.一些风险层面的思考一.聚焦长文本，国产大模型已有赶超GPT之势。

2024-07-28 23:00:18 1059

原创 AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

MiniCPM-V 2.0，这是MiniCPM系列的多模态版本。MiniCPM-V 2.0显示出强⼤的OCR和多模态理解能⼒，在开源模型中的OCRBench上表现出⾊，甚⾄在场景⽂本理解上可以与Gemini Pro相媲美。MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。# 下载模型，以int4量化的MiniCPM-Llama3-V-2_5为例。# 前提，安装git和git-lfs【可选，如果已安装，则跳过】# 新建demo.py。

2024-07-21 19:09:00 2007

原创 AI多模态教程：Qwen-VL多模态大模型实践指南

使用官方项目里提供的微调脚本进行LoRA微调测试，模型采用HuggingFace下载的那个全精度模型，数据采用上面的示例数据，建议模型路径使用绝对路径，如果你想节省显存占用，可以考虑使用chat模型进行LoRA微调，显存占用将大幅度降低。提供finetune.py脚本和shell脚本的目的是为了简化用户在自有数据上微调预训练模型的过程，同时支持DeepSpeed和FSDP（Fully Sharded Data Parallel）两种优化技术，以提高训练效率和可扩展性。

2024-07-05 18:14:07 1668

原创 AI多模态模型架构之LLM主干(3)：Llama系列

初期，小模型的损失下降较快，但随着训练的深入，小模型的性能逐渐饱和，下降速度减缓，而大模型的下降速度则超过了小模型。根据传统Scaling Law的建议，对于10B模型，应使用2000亿token进行训练，但Meta发现，即使是7B模型，使用1万亿token后，性能仍能持续提升。在后续的Llama系列中，Llama-1全部采用了公开渠道可以获取的数据，使用了2017至2020年的CommonCrawl数据，以及来自书籍和维基百科的文本，并且进行了去重，去掉了非英文数据，用线性模型对文本质量进行了分类。

2024-07-05 17:54:29 1316

原创 AI多模态教程：Mini-InternVL1.5多模态大模型实践指南

论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集中。同时，为了增强模型的多语言能力，我们实现了数据翻译pipeline，利用最先进的开源LLM或GPT-3.5 将英文数据集转换为另一种语言（例如中文），保持双语标注的一致性和准确性。在Mini-InternVL 1.5的工作中，InternViT-6B-448px-V1-5被蒸馏到300M，并使用。

2024-06-21 17:37:16 1347

原创 AI多模态模型架构之LLM主干(2)：Qwen系列

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

2024-06-15 01:42:37 1603

原创 AI多模态模型架构之LLM主干(1)：ChatGLM系列

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

2024-06-13 23:46:55 1518

原创智谱推出创新AI模型GLM-4-9B：国家队开源生态的新里程碑

而在中文学科方面，GLM-4-9B的提升更为显著，达到了50%，这进一步证明了智谱在中文学科处理方面的领先地位。GLM-4-9B在这一方面的提升，表明它能够更准确地理解和执行用户的指令，从而在实际应用中发挥更大的作用。，GLM-4-9B同样取得了显著的提升。文章最后，一手觉得：GLM-4-9B的推出不仅巩固了智谱在AI领域的领先地位，也为整个行业的发展树立了新的标杆。GLM-4-9B-Chat-1M的这种能力，使得它能够更好地模拟人类的对话方式，提供更加自然和流畅的交互体验。

2024-06-06 13:33:50 1298

原创 AI多模态模型架构之输入投影器：LP、MLP和Cross-Attention

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

2024-06-04 16:50:23 1809

原创 CV再放大招 | YOLOv10：毫秒级实时端到端目标检测开源模型

在本文中，针对YOLO整个检测流程中的后处理和模型架构。对于后处理，提出一致的双重分配进行 NMS-free 训练，实现高效的端到端检测。对于模型架构，引入整体效率-准确性驱动的模型设计策略，改善性能与效率的权衡。这些带来了 YOLOv10，一种新的实时端到端目标检测器。大量实验表明，与其他先进检测器相比，YOLOv10 实现了最先进的性能和延迟，充分证明了其优越性。探索AI的无限可能，微信关注“AIGCmagic”公众号，让智能科技点亮你的生活《AIGCmagic星球》，五大AIGC方向正式上线！

2024-05-26 18:25:17 913

原创 AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

AI多模态在文档智能领域又一力作！

2024-05-19 18:58:57 1309

原创《三年面试五年模拟》版本更新白皮书，迎接AIGC时代

【三年面试五年模拟】旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法，力求让读者在获得心仪offer的同时，增强技术基本面。也欢迎大家提出宝贵的优化建议，一起交流学习💪大家好，我是Rocky，AIGCmagic社区创始人。《三年面试五年模拟》系列作品好久没和大家见面了，之前帮助很多读者获得了心仪的算法岗offer，收到了大家的很多好评，Rocky觉得很开心也很有意义。随着AI行业进入AIGC时代，Rocky也在思考《三年面试五年模拟》系列如何帮助大家更好的在AIGC时代适应。

2024-05-12 20:39:16 789

AIGCmagic的博客

原创多模态文档理解：多任务通用OCR2.0模型

原创 AI多模态基础知识点：LLM小白也能看懂的分词（tokenization）解读

原创多模态文档理解：一文读懂mPLUG-DocOwl系列模型

原创论文解读：利用大模型进行基于上下文的OCR校正

原创 MME-RealWorld：您的多模态大型语言模型能挑战高分辨率的真实世界场景吗？这些场景对人类来说都非常困难！

原创 CMM-Math：中文多模态数学评估数据集

原创 AI多模态模型架构之模态生成器：Modality Generator

原创多模态基础模型：一文读懂LLAVA系列模型

原创 SAM2论文核心速览

原创 AI视频实战教程：DiffIR2VR-Zero-模糊视频8K高清修复技术

原创 AI多模态模型架构之输出映射器：Output Projector

原创国产大模型的逆袭：技术路径的策略与实践

原创 AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

原创 AI多模态教程：Qwen-VL多模态大模型实践指南

原创 AI多模态模型架构之LLM主干(3)：Llama系列

原创 AI多模态教程：Mini-InternVL1.5多模态大模型实践指南

原创 AI多模态模型架构之LLM主干(2)：Qwen系列

原创 AI多模态模型架构之LLM主干(1)：ChatGLM系列

原创智谱推出创新AI模型GLM-4-9B：国家队开源生态的新里程碑

原创 AI多模态模型架构之输入投影器：LP、MLP和Cross-Attention

原创 CV再放大招 | YOLOv10：毫秒级实时端到端目标检测开源模型

原创 AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

原创《三年面试五年模拟》版本更新白皮书，迎接AIGC时代

原创 AI多模态模型架构之模态编码器：图像编码、音频编码、视频编码

原创《AIGCmagic星球》，五大AIGC方向正式上线！让我们在AIGC时代携手同行！限量活动中！

原创 AI多模态教程：从0到1搭建VisualGLM图文大模型案例

空空如也

空空如也