- 博客(4440)
- 资源 (4)
- 收藏
- 关注
原创 基于 Qwen2.5-VL 的多模态检索增强生成(RAG)
今天,使用该模型,我们将对 MIG 29(一种战斗机)飞行手册进行多模态 RAG,该手册包含复杂的图形、图表等内容。我们在 RAG 速成课程的第 9 部分对 ColPali 进行了完整的架构拆解,并通过二值量化对其进行了优化。这里展示了一部分 streamlit 内容,但构建完成后,我们得到了这个清晰整洁的界面。我们已经实现了一个由 Qwen2.5-VL 驱动的 100%本地多模态 RAG。在这个例子中,它通过检索正确的页面并理解复杂的可视化,给出了正确的回答👇。
2025-05-18 19:27:58
22
原创 排行榜:C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。中查看我们的数据集示例,或查看我们的。
2025-05-18 19:21:12
13
原创 Policy Gradient Algorithms【A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、PPG、ACER、ACTKR、SAC、SAC with Automa】
每个智能体的随机策略仅涉及其自身的状态和动作: πθi:Oi×Ai↦[0,1] ,即在给定自身观测的情况下对动作的概率分布,或者是确定性策略: μθi:Oi↦Ai。例如,一个常见的基线是从动作值中减去状态值,如果应用此方法,我们将在梯度上升更新中使用优势 A(s,a)=Q(s,a)−V(s)。注意,由于策略是确定性的,我们只需要 Qμ(s,μθ(s)) 而不是 ∑aπ(a|s)Qπ(s,a) 作为给定状态 s 的估计奖励。首先,给定当前的 αT ,获得最大化 L(πT∗,αT) 的最佳策略 πT∗。
2025-05-18 18:46:53
529
原创 大语言模型:LLM-2B、LLM-3B、LLM-7B模型结构【开源模型】
这些对比可帮助你根据目标硬件与任务(推理速度、上下文长短、推理质量)选型或自定义剪枝。如需进一步探讨某一模型的微调技巧或推理显存占用,欢迎继续交流!*Query 组数 = num_key_value_heads。<头数 代表 GQA;=头数 为普通 MHA。†Falcon-7B 未在 config 显式给出 FFN 宽度;论文与官方脚本默认按 4×hidden 近似 18 176。
2025-05-16 12:10:15
21
原创 LLaMA2-7B模型剪枝
明白了。我将调研在保持精度的前提下提升推理速度的各种 LLM 裁剪方法,聚焦于 PyTorch 实现,尤其是将 LLaMA2-7B 裁剪为类似 LLaMA2-2B 的策略。调研将涵盖结构化裁剪(如注意力头/层剪枝)、通道剪枝、低秩分解、稀疏化、量化辅助剪枝等主流方法,并结合相关论文与开源项目,提供具代表性的 PyTorch 示例代码。我会尽快整理出详细的调研报告供你查看。
2025-05-16 11:21:44
23
原创 Qwen-Audio解读: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
论文《Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models》提出了一条完整的“音频-语言”技术路线:以 Whisper-Large-v2 为 640 M 参数的音频编码器,串接 7.7 B 参数的 Qwen-7B 解码式语言模型,通过。
2025-05-16 10:47:34
18
原创 开源TTS模型:VITS(2025.3)
为了有效地解开的环境,speaker,和文本因素,我们提出了一个增量的解开过程中,环境估计器的设计,首先分解成一个环境掩码和增强的频谱环境频谱图。然后由环境编码器处理环境掩码以提取环境嵌入,而增强的频谱图促进随后的说话者和文本因素与说话者嵌入的条件的解纠缠,其使用预训练的环境鲁棒的说话者编码器从环境语音中提取。我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。以适合对话上下文的风格合成语音。
2025-05-15 22:01:25
43
原创 大模型分布式训练秘籍:Megatron-LM vs DeepSpeed技术对比
Megatron-LM与DeepSpeed的竞争本质是硬件效率与算法泛化性的平衡:前者依托英伟达生态实现极致性能,后者通过软件创新突破显存物理限制。正如微软研究院负责人所言:“未来的分布式训练框架,必须是编译器、运行时与硬件的共进化系统”。随着3D封装与光互连技术成熟,万亿参数模型的训练将进入“小时级”时代。大模型分布式训练秘籍:Megatron-LM vs DeepSpeed技术对比_megatron 对比 deepspeed-CSDN博客。
2025-05-08 15:19:59
69
1
原创 NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】
仅仅通过几行代码,开发者即可通过包括 TensorRT-LLM 在内的流行推理框架来使用最新的 Qwen 系列模型。此外,对模型推理和部署框架的技术选型需要考虑到诸多关键因素,尤其是在把 AI 模型部署到生产环境中时,对性能、资源和成本的平衡。
2025-05-05 23:15:13
95
1
原创 Jetson Orin NX Super安装TensorRT-LLM
系统环境(JetPack 6.2 + CUDA 12.6 + TensorRT 10.7),以下是针对该平台的。需选择适配的 TensorRT-LLM 版本。由于官方预编译包可能未覆盖此组合,建议通过。print(tensorrt_llm.__version__) # 应输出 0.13.0。python3 -m venv trtllm-env # 创建Python虚拟环境。make -j$(($(nproc)-1)) # 留1个核心避免OOM。(含 CUDA 12.6, TensorRT 10.7)
2025-05-05 22:51:05
56
原创 Ollama vs vLLM:并发性能深度评测
1.1 OllamaOllama 是一个简单易用的 LLM 部署工具,以其简洁的安装和用户友好的界面而闻名。它支持多种模型架构,并提供了丰富的命令行工具和图形化界面,适合快速原型设计和小规模部署。1.2 vLLMvLLM(Very Large Language Model)是一个高性能的推理引擎,专注于大规模语言模型的高效推理。它通过动态批处理、显存优化和多 GPU 支持,显著提升了推理速度和资源利用率。
2025-05-05 22:17:45
52
原创 在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别
在AI大语言模型逐渐兴起的时代,或许在特定的领域需要离线、免费、开源的语音处理应用方式。选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡的Demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式,文档太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用很少。
2025-05-01 22:45:32
65
1
原创 Jetson Orin安装riva以及llamaspeak,使用 Riva ASR/TTS 与 Llama 进行实时交谈,大语言模型成功运行笔记
NVIDIA 的综合语音 AI 工具包 RIVA 可以处理这种情况。此外,RIVA 可以构建应用程序,在本地设备(如)上处理所有这些内容。RIVA 在运行 JetPack 5 及更高版本的 Jetson Orin 和 Xavier 系列处理器上运行。在视频中,我们使用的是Jetson Orin模组和国产载板,usb免驱声卡和麦克风耳机。
2025-05-01 22:38:42
64
原创 自己制作智能语音机器人(基于jetson nano)
如上图,主要采用jetson上编写python代码实现,支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。科大讯飞麦克风硬件:AIUI R818麦克阵列开发套件+6麦阵列,支持离线语音唤醒USB免驱声卡+喇叭科大讯飞在线语音识别API科大讯飞在线语音合成API语言大模型API自己制作智能语音机器人,识别鸭脖和老鼠头_哔哩哔哩_bilibili。
2025-05-01 22:35:32
58
原创 NVIDIA JetPack SDK:专为 Jetson 系列边缘计算平台(如 Orin NX Super、AGX Orin)设计的全栈开发工具,用于构建高性能端侧 AI 应用
JetPack SDK 凭借 NVIDIA GPU 生态优势,在端侧高性能 AI 计算领域领先,尤其适合需复杂多模态处理的工业与机器人应用;而 QNN 更适配移动端低功耗场景[12]。参考资料:[1]
2025-05-01 22:11:24
35
原创 Jetson Orin NX Super 的 AI 开发工具链
将 PyTorch/TensorFlow 模型转换为 TensorRT 引擎,提升推理速度(如 Jetson Orin NX Super 的 LLM 推理速度提升 70% [11])。:提供预训练模型库和迁移学习工具,简化 Jetson 端侧模型的微调流程(如零售场景的 OCR 模型优化 [3])。:NVIDIA 的深度学习推理优化器和运行时,支持模型量化(INT8/FP16)、层融合、硬件加速 [13]。支持模型剪枝、量化,适配 Jetson Orin 的内存带宽(102GB/s [7])。
2025-05-01 22:06:00
39
原创 Qwen 2.5 VL 大模型实现目标检测
遍历指定文件夹中的所有图像,批量执行推理,并保存结果。类ColorPalette:这个类管理颜色,用于给边界框着色。它有一个颜色列表,并且可以扩展更多的颜色名称。get_color方法根据索引返回颜色,用于区分不同对象。类JSONParser:这个静态类处理JSON的解析,可能从模型输出中提取JSON部分。parse_json方法可能用于从文本中提取JSON数据,例如当模型输出包含格式化的JSON时,比如用```json包裹的文本。类BoundingBoxPlotter:这个类负责在图像上绘制边界框。
2025-04-30 18:26:41
64
原创 DeepSeek-V3 技术解析:多Token预测(Multi-Token Prediction, MTP)
在文献 [2] 中,作者尝试通过 MTP 技术预测未来的 2 个词元(token),并将其与推测解码相结合,结果发现第二个词元预测的接受率约为 85%~90%,这表明其 MTP 策略的生成质量稳定可靠。因此,上述多词元预测的损失函数将首先被分解为多个单词元(token)预测操作头,然后每个单词元(token)预测头会运行独立的 Softmax 来选择对应词元。此外,模型可能会出现模式奔溃(mode collapse),倾向于生成通用的、高频的词汇,而非细致的响应,从而降低输出的多样性和丰富性。
2025-04-27 00:10:56
72
1
原创 阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践
随着 ChatGPT 的一夜爆火,大模型如今越来越广泛的应用到各种业务领域中,阿里安全的业务领域对大模型技术的应用也已经 2 年有余。本文对阿里安全在大模型工程领域积累的实践经验做出总结和分享。在大模型实际应用实践的过程中,阿里安全采用NVIDIA NeMoTM 框架和大语言模型推理加速库,显著优化了模型训练与推理性能。
2025-04-19 08:18:36
64
1
原创 Tracing the thoughts of a large language model【追踪大型语言模型的思维】
像 Claude 这样的语言模型不是由人类直接编程的——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的解决问题策略。这些策略被编码在模型为每个单词执行的数十亿次计算中。对于我们这些模型开发者来说,这些策略是难以理解的。这意味着我们不理解模型如何完成它们大多数的任务。了解像 Claude 这样的模型如何思考,将使我们更好地理解它们的能力,并帮助我们确保它们按照我们的意图行事。例如:Claude 可以说几十种语言。它“脑海中”使用的是哪种语言(如果有的话)?Claude 一次写一个词。
2025-04-16 23:24:52
103
原创 多模态:Phi-3.5-vision-instruct【4.2B参数】【微软】
Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型,专注于多模态任务处理,尤其是视觉推理方面的能力。参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练使用了256个NVIDIA A100-80G GPU,训练时间为6天。Phi-3.5-vision在多模态多图像理解(MMMU)中的得分为43.0,相较于之前版本有所提升,显示了其在处理复杂图像理解任务时的增强能力。
2025-04-14 00:54:59
87
原创 点云模型专栏(一)概述、特性、存储格式、数据集
点云数据主要是由激光雷达扫描仪进行扫描采集得到的,从本质上来讲是点云是3D空间中无序、无结构的海量数据点的集合,每个点表达目标空间分布和目标表面特性。比如说,扫描某建筑物,得到的每个虚拟的数据点将代表窗户、楼梯、墙壁等任何表面上的真实的点,且包含了如三维坐标、颜色、强度值和入射方向等属性信息。点云数据的获取不仅只有激光雷达扫描这一种方式,还可以利用RGB-D相机同时获取多帧彩色图像和深度图,再利用相机的参数间接生成点云。
2025-04-14 00:40:27
824
原创 3D点云数据分析与处理-传统方法与深度学习
基于3D视觉的新兴应用场景蓬勃发展,3D点云越来越受到人们的广泛关注。点云有着广泛的应用领域包括机器人技术、3D图形、自动驾驶、虚拟现实(AR/VR/MR)等。为了跟上不断增长的应用需要,研究和开发有效存储、处理的相关算法来处理点云的意义正显著上升。传统的分析算法处理点云,主要侧重于对点的局部几何特征进行编码。深度学习在图像数据处理领域取得了巨大的成功,这使得研究相应的点云神经网络结构有极其现实的迫切需求。当前的研究热点主要涉及发展用于各种点云处理任务的深度神经网络。
2025-04-14 00:36:59
838
原创 点云数据(Point Cloub Data)学习笔记
点云是指目标表面特性的海量点集合。通过测量仪器得到的物体外观表面的点数据集合就称之为点云。请注意:上面虽然使用的是 “物体表面”,但其实暗含的意思为 “物体空间表面”。PCD 格式标准是为了更好支持 PCL 库而诞生的。PCL库是什么?PCL(Point Cloud Library) 是一个大型跨平台开源的 C++ 编程库。该库实现了大量点云相关的通用算法和高效数据结构。涉及到点云获取、过滤、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等。结合点云数据的一些特征,又产生了以下一些名词概念。
2025-04-14 00:35:18
1011
原创 3D点云之点云数据介绍
在传统的几何算法中,点云补全主要是基于点云的形状、结构和拓扑等特征进行分析和处理,以构建合理的模型。传统的基于模型匹配的方法通常需要先构建目标物体的模型,并将其与采集的点云数据进行匹配,从而识别出目标物体的位置和姿态。3.目标检测与分类:利用深度学习等方法来对点云数据进行目标检测和分类,目前常用的方法包括基于2D投影的方法、基于3D框架的方法和基于点云分割的方法等。2.点云特征提取:通过点云的几何和拓扑属性来提取特征,常见的方法包括基于形状的特征、基于法向量的特征、基于表面曲率的特征等。
2025-04-14 00:33:22
873
原创 图像分割综述之语义分割
图像分割是将一幅图像分成多个子区域的过程,使得每个子区域内的像素具有相似的特征。图像分割是计算机视觉领域中的一个基础问题,被广泛应用于医学影像分析、目标跟踪、自动驾驶等领域。语义分割是图像分割的一种特殊形式,即将图像中的每个像素划分到一组预定义的语义类别中,与物体实例无关。因此,语义分割可以被视为图像分类问题的推广,而不是像素级别的物体检测或实例分割问题。语义分割是许多计算机视觉任务中的基础,如自动驾驶、智能视频监控等领域,因为它能够帮助计算机理解图像中不同区域的语义含义,从而做出更准确的判断和决策。目前,
2025-04-14 00:25:32
651
原创 语义分割(Semantic Segmentation)【截至2025年4月】
(Semantic Segmentation)是计算机视觉中的核心任务,旨在为图像中的每个像素分配一个语义类别标签,实现像素级别的语义理解。
2025-04-14 00:10:30
1326
原创 目标检测(Object Detection)简介
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。计算机视觉中关于图像识别有四大类任务:(1)分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。(2)定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
2025-04-13 23:46:40
1711
原创 目标检测(Object Detection)的评测指标
判断检测框是否有效(通常阈值设为0.5),用于计算TP/FP。:预测框与真实框的重叠程度,计算为两者的交集面积除以并集面积。(注:目标检测中TN通常不关注,因负样本量过大)预测框与真实框的并集面积。预测框与真实框的交集面积。
2025-04-13 23:40:01
527
原创 Swift:一站式大模型训练工具链,让模型进化更轻松
模型的进化离不开工具链的支持与助力,未来SwanLab也将与更多工具伙伴一起,为世界AI开发者提供更好的体验,提高模型进化效能。
2025-04-05 18:15:42
100
原创 LLM关键函数对比:训练阶段的model(),推理阶段的model(),推理阶段的model.generate()
以下是针对的详细分阶段解释与代码示例,涵盖训练、手动生成、Logits 提取和自动生成,输入均为,目标输出为。代码包含内部实现的简化逻辑。
2025-03-12 17:01:19
129
原创 开源中文DeepSeek-R1(满血)蒸馏数据集-110K
其实数据蒸馏之前就常用,之前蒸馏GPT4,现在改成蒸馏DeepSeek-R1了。DS就像是一条鲇鱼,搅浑了开源和闭源这摊死水,前两天百度先宣布免费,再宣布开源。OpenAI同时也是坐不住了,先开发o1的思维链(总结版),后面也不挤牙膏了,说马上来GPT4.5和GPT5。Grok3明天也来了,所以开源越来越好啦~~开的这个数据集会有些不完善的地方,毕竟没搞那么久,但希望大家不喜勿喷!
2025-03-11 00:41:43
125
原创 图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)强化学习中两个实体的交互:状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合R即为Reward,指智能体在环境的某一状态下所获得的奖励。在 t 时刻,环境的状态为 St ,达到这一状态所获得的奖励为 Rt智能体观测到 St 与 Rt ,采取相应动作 At智能体采取 At 后,环境状态变为 St+1 ,得到相应的奖励 Rt+1。
2025-03-10 23:05:31
622
原创 RLHF几大常用框架实践对比(trl、deepspeedchat、colossalaichat)
其实SFT其实也展现出了很不错的性能,但是从实践上看,例如moss要做到和人类比较好的对齐,光微调的数据就达到100w的级别,这个级别的高质量数据收集起来代价还是比较高的,而后面RL的步骤,从实践结果来看,它能够用少量的数据让模型在对齐上的效果和泛化性达到一个新的高度。这篇文章里,提到了很多PPO的优化方法,里面我只试了一部分,目前来看,对优势值的正则化是有效的,能够让actor的loss变得稳定,如果是分布式的场景,记得要同步后再做正则,这块Trlx有相关的实现。我实践经验上看,多次迭代效果是更好的。
2025-03-10 23:04:06
770
原创 windows安装Mobaxterm(非portable版)后,本地打开终端的默认位置
C:\Users\Admin\AppData\Roaming\MobaXterm\slash\mx86_64b
2025-03-07 18:16:40
226
原创 利用WeNet进行Squeezeformer 训练
通过以上步骤,可高效地在WeNet框架中完成Squeezeformer模型的训练与部署。具体细节需参考官方文档及论文实验设置。
2025-03-04 23:22:38
72
原创 Conformer、Squeezeformer、Zipformer 对比分析
ConformerSqueezeformer选择建议:选择建议: Conformer (2020)Squeezeformer (2022)Zipformer (2024)选择建议:
2025-03-04 23:01:40
181
《Approaching (Almost) Any Machine Learning Problem》
2023-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人