目标检测算法——YOLOV11——算法详解 其实到了YOLOV5 基本创新点就不太多了,主要就是大家互相排列组合复用不同的网络模块、损失函数和样本匹配策略, V11支持多种视觉任务:物体检测、实例分割、图像分类、姿态估计和定向物体检测(OBB)。对比YOLOV8主要涉及到: *backbone 中的使用C2f模块 变为 c3k2 模块。 *backbone 中的最后一层(sppf层)后增加了C2PSA模块。 *head 解耦头中的分类检测头两个Conv 变为 DWConv。
VLM 系列——Qwen2 VL——论文解读 qwen2-vl 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器(标准VIT输出后面接patch merger )+ LLM形式。比较创新的是统一视觉处理方式(3D CNN统一视频、图片)+图像缩放方式(自适应缩放)+3D LLM位置编码。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。
VLM 系列——Qwen2 VL——论文解读——前瞻(源码解读) Qwen2 VL 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。比较创新的是图像缩放方式+3D LLM位置编码。
VLM 系列——phi3.5-Vision——论文解读 是一系列大型语言模型(LLM) & 多模态大型语言模型(MLLM)。其中LLM包括phi-3-mini 3.8B、phi-3-small 7B、phi-3-medium 14B,phi-3-mini可以轻松地在现代手机上本地进行推理;多模态模型包括phi-3-vision(基于phi-3-mini & CLIP ViT-L/14) 4.2B。本文重点介绍多模态的phi-3-mini模型,该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、高清
VLM 系列——Mini-Monkey——论文解读 Mini-Monkey 是一个轻量级MLLM(多模态的视觉-文本模型),基于InternViT、MLP和InternLLM,其实就是全套的Intern VL2。在2B参数MLLM中取得了最先进的性能。,模型和训练策略非常高效.创新点:图像的处理方式——多尺度自适应裁剪策略(MSAC)+一种尺度压缩机制(SCM)。Mini-Monkey能够自适应地生成多尺度表示,允许它从不同尺度中选择未被分割的物体,并有效地压缩图像标记。
VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻(源码解读) MiniCPM-Llama3-V 2.6 是一款面向终端设备的多模态大型语言模型(MLLM),论文暂未发布,它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(qwen2 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、代码编写和debug、多图问对话、视频理解对话、json格式、高清OCR解析(函数调用论文暂时未提)。本文结合源码,将重点改进和相关技术进行了拆解介绍。
VLM 系列——MiniCPM-Llama3-V 2.5——论文解读 MiniCPM-Llama3-V 2.5 是一款面向终端设备的多模态大型语言模型(MLLM),它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(llama3 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、图文问答等功能。
hugging face 使用教程———快速入门 本篇存在的意义是快速介绍hugging face使用,梳理主要部件,梳理易混淆概念。原因是:目前hugging face的使用,官方放在了3个地方(参考链接部分):使用文档、NLP教程、Transformers git的readme 文件,很多重叠内容比较浪费时间,很容易看懵。等大家有了主要概念再去看需要具体看某个函数或功能。
LLM 系列——Qwen2——论文解读 Qwen2 是单模态纯文本的大语言模型,开源了一整套基础和指令调优的语言模型,参数范围从5亿到720亿不等,包括密集模型和混合专家模型。可以用于:语言理解、生成、多语言、编码、数学和推理。主要是精召性能提升、数据和长文本处理方面改进,包括数据处理等使用了一些最新的其他论文的思路,模型结构等方面并没有大的改动。
VLM 系列——InternVL 1.5——论文解读 InternVL 1.5 是一个多模态大模型,主要还是图文问答等,不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集。主要贡献有三点;更强视觉编码器、支持动态高分辨率、高质量的双语数据集。
VM 系列——SEED-X——论文解读 seed-x 不同于之前的图像文本大模型,主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像,其作为一个统一的多模态基础模型,通过不同的指令调整,可以在现实世界中作为各种多模态 AI 助手使用,支持图像理解、生成、编辑(在指定图像通过文本指令改变图像内容)和检测等功能。但是一定要注意文章提到,当前不同的功能是不同的独立子模型实现的。
目标检测算法——YOLO-Word——算法详解 本文主要介绍YOLO-word 算法,从思路和数据角度去梳理输出文章的创新点,整体而言CLIP 文本embedding的引入以及大规模数据的加入,赋予了模型识别开集其余类目的能力。
模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT) 本文主要介绍NVIDIA 模型量化方案的选型思路(主要有三种:PTQ、 partialPTQ、 QAT)。并且对其中涉及的知识点进行了提炼总结。
大模型知识点汇总——分布式训练 本篇在宏观上介绍AIGC、LLM 训练过程中的模型加速相关概念和技术,不做数学推导和过于细节介绍,旨在快速有一个宏观认知,不拘泥在细节上。涉及:混合精度训练、数据并行、张量并行、流水线并行、模型并行、3D并行、混合并行、ZeRO 1、ZeRO 2、ZeRO 3、ZeRO-offload、Megatron、DeepSpeed、PFlash Attention、nvlink、nvswitch、Infiniband。