- 博客(4451)
- 资源 (9)
- 收藏
- 关注
原创 初探muP:超参数的跨模型尺度迁移规律
众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不平凡,它需要我们了解常见的超参数与模型尺度之间的缩放规律,而muP正是这个想法的一个实践。
2025-06-09 08:29:34
19
原创 【nlp】大模型训练--3D并行
参考:图解大模型训练之:流水线并行(Pipeline Parallelism),以Gpipe为例在数据并行(Data Parallelism)训练中,模型的被复制到每个计算 GPU 上,而输入数据批次(batch)则被,并分配给不同的 GPU 上进行并行计算。以下是数据并行的详细过程:1. 初始化和模型参数分配2. 前向传播(Forward, FWD)和反向传播(Backward, BWD)3. 梯度聚合(AllReduce)4. 参数更新(Pull)5. 下一轮迭代所有 GPU 的模型参数同步完成后,进行
2025-06-08 23:23:05
15
原创 绝对位置编码 在序列长度增加时,会经历“饱和”现象
绝对位置编码在序列长度增加时会经历“饱和”现象,主要是由于其计算方式基于固定的正弦和余弦函数,且这些函数的性质会导致位置信息的表达能力受到限制,特别是在处理较长序列时。下面将详细解释这种饱和现象及其原因。在Transformer模型中,绝对位置编码的计算公式如下:PEpos,2i=sin(pos100002i/d)PE_{pos, 2i} = \sin\left(\frac{pos}{10000^{2i/d}}\right)PEpos,2i=sin(100002i/dpos)PEpos,2i+1=
2025-06-06 21:33:59
18
1
原创 分组注意力机制(GQA/GroupedQueryAttention)核心代码
【代码】分组注意力机制(GQA/GroupedQueryAttention)核心代码。
2025-06-06 11:13:59
30
原创 RoPE(旋转位置编码)详解【代码&公式】
输入向量 x 的形状:(batch_size, seq_len, D) = (1,3,2)D 是嵌入维度,必须为偶数位置索引 m ∈ [0, seq_len-1], 即:m ∈ [0, 2]维度索引 k ∈ [0, D/2-1],即:k ∈ [0]
2025-06-04 21:45:18
41
原创 从BEV感知到端到端自动驾驶
Waymo数据集是由Waymo公司发布的自动驾驶数据集.数据集使用5个激光雷达传感器和5个高分辨率针孔摄像机进行数据收集, 选取了一天中不同时间段以及不同天气的郊区和城市地区的场景, 包含798个用于训练的场景和202个用于验证的场景, 以及150个用于测试的场景, 每个场景的时间跨度为20s.数据集对车辆、行人、标志和自行车4类目标一共标注了约1200万个3D标签和1000万个2D标签.当然,有些方法没有显式的做特征空间转换,而是利用Transformer,直接从图像特征中预测3D空间中的感知结果。
2025-06-02 20:57:39
32
原创 CrossEntropyLoss()【多分类】和 BCEWithLogitsLoss() 【多标签分类】举例说明区别
在二分类任务中,模型的最后一层输出是一个单个值,表示正类的概率。nn.BCEWithLogitsLoss() 将模型的输出应用于 Sigmoid 函数,将其转换为一个在0到1之间的概率值。在多分类任务中,模型的最后一层输出是一个概率分布,表示每个类别的概率。CrossEntropyLoss() 计算模型输出与目标标签之间的交叉熵损失,用于衡量模型的预测与真实标签之间的差异。其中每个样本可以属于多个类别。在这种情况下,每个类别被视为一个独立的二分类问题,并且损失通过对每个类别计算二元交叉熵的平均值得到。
2025-05-26 12:09:40
434
原创 蒸馏训练-Loss:软标签损失(KLDivLoss)、硬标签损失(CrossEntropyLoss)
ScaledMultiClassCrossEntropyLoss是一种改进的多分类交叉熵损失函数,其核心思想是通过引入**温度缩放(Temperature Scaling)**机制调整模型输出的概率分布形态,从而优化训练过程。
2025-05-24 23:58:55
38
原创 NVIDIA GPU:A100、H100、A800、H800、H20的差异
Ampere 架构的 GPU 采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。这些GPU主要面向中国客户,如阿里云、腾讯云、百度云等云计算厂商,性能稍逊于A100和H100,但仍然具备极高的计算能力。
2025-05-20 06:45:14
152
原创 基于 Qwen2.5-VL 的多模态检索增强生成(RAG)
今天,使用该模型,我们将对 MIG 29(一种战斗机)飞行手册进行多模态 RAG,该手册包含复杂的图形、图表等内容。我们在 RAG 速成课程的第 9 部分对 ColPali 进行了完整的架构拆解,并通过二值量化对其进行了优化。这里展示了一部分 streamlit 内容,但构建完成后,我们得到了这个清晰整洁的界面。我们已经实现了一个由 Qwen2.5-VL 驱动的 100%本地多模态 RAG。在这个例子中,它通过检索正确的页面并理解复杂的可视化,给出了正确的回答👇。
2025-05-18 19:27:58
96
原创 排行榜:C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。中查看我们的数据集示例,或查看我们的。
2025-05-18 19:21:12
52
原创 Policy Gradient Algorithms【A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、PPG、ACER、ACTKR、SAC、SAC with Automa】
每个智能体的随机策略仅涉及其自身的状态和动作: πθi:Oi×Ai↦[0,1] ,即在给定自身观测的情况下对动作的概率分布,或者是确定性策略: μθi:Oi↦Ai。例如,一个常见的基线是从动作值中减去状态值,如果应用此方法,我们将在梯度上升更新中使用优势 A(s,a)=Q(s,a)−V(s)。注意,由于策略是确定性的,我们只需要 Qμ(s,μθ(s)) 而不是 ∑aπ(a|s)Qπ(s,a) 作为给定状态 s 的估计奖励。首先,给定当前的 αT ,获得最大化 L(πT∗,αT) 的最佳策略 πT∗。
2025-05-18 18:46:53
848
原创 大语言模型:LLM-2B、LLM-3B、LLM-7B模型结构【开源模型】
这些对比可帮助你根据目标硬件与任务(推理速度、上下文长短、推理质量)选型或自定义剪枝。如需进一步探讨某一模型的微调技巧或推理显存占用,欢迎继续交流!*Query 组数 = num_key_value_heads。<头数 代表 GQA;=头数 为普通 MHA。†Falcon-7B 未在 config 显式给出 FFN 宽度;论文与官方脚本默认按 4×hidden 近似 18 176。
2025-05-16 12:10:15
55
原创 LLaMA2-7B模型剪枝
明白了。我将调研在保持精度的前提下提升推理速度的各种 LLM 裁剪方法,聚焦于 PyTorch 实现,尤其是将 LLaMA2-7B 裁剪为类似 LLaMA2-2B 的策略。调研将涵盖结构化裁剪(如注意力头/层剪枝)、通道剪枝、低秩分解、稀疏化、量化辅助剪枝等主流方法,并结合相关论文与开源项目,提供具代表性的 PyTorch 示例代码。我会尽快整理出详细的调研报告供你查看。
2025-05-16 11:21:44
132
原创 Qwen-Audio解读: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
论文《Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models》提出了一条完整的“音频-语言”技术路线:以 Whisper-Large-v2 为 640 M 参数的音频编码器,串接 7.7 B 参数的 Qwen-7B 解码式语言模型,通过。
2025-05-16 10:47:34
55
原创 开源TTS模型:VITS(2025.3)
为了有效地解开的环境,speaker,和文本因素,我们提出了一个增量的解开过程中,环境估计器的设计,首先分解成一个环境掩码和增强的频谱环境频谱图。然后由环境编码器处理环境掩码以提取环境嵌入,而增强的频谱图促进随后的说话者和文本因素与说话者嵌入的条件的解纠缠,其使用预训练的环境鲁棒的说话者编码器从环境语音中提取。我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。以适合对话上下文的风格合成语音。
2025-05-15 22:01:25
102
原创 大模型分布式训练秘籍:Megatron-LM vs DeepSpeed技术对比
Megatron-LM与DeepSpeed的竞争本质是硬件效率与算法泛化性的平衡:前者依托英伟达生态实现极致性能,后者通过软件创新突破显存物理限制。正如微软研究院负责人所言:“未来的分布式训练框架,必须是编译器、运行时与硬件的共进化系统”。随着3D封装与光互连技术成熟,万亿参数模型的训练将进入“小时级”时代。大模型分布式训练秘籍:Megatron-LM vs DeepSpeed技术对比_megatron 对比 deepspeed-CSDN博客。
2025-05-08 15:19:59
107
1
原创 NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署【2025年 5月 2日】
仅仅通过几行代码,开发者即可通过包括 TensorRT-LLM 在内的流行推理框架来使用最新的 Qwen 系列模型。此外,对模型推理和部署框架的技术选型需要考虑到诸多关键因素,尤其是在把 AI 模型部署到生产环境中时,对性能、资源和成本的平衡。
2025-05-05 23:15:13
131
1
原创 Jetson Orin NX Super安装TensorRT-LLM
系统环境(JetPack 6.2 + CUDA 12.6 + TensorRT 10.7),以下是针对该平台的。需选择适配的 TensorRT-LLM 版本。由于官方预编译包可能未覆盖此组合,建议通过。print(tensorrt_llm.__version__) # 应输出 0.13.0。python3 -m venv trtllm-env # 创建Python虚拟环境。make -j$(($(nproc)-1)) # 留1个核心避免OOM。(含 CUDA 12.6, TensorRT 10.7)
2025-05-05 22:51:05
157
原创 Ollama vs vLLM:并发性能深度评测
1.1 OllamaOllama 是一个简单易用的 LLM 部署工具,以其简洁的安装和用户友好的界面而闻名。它支持多种模型架构,并提供了丰富的命令行工具和图形化界面,适合快速原型设计和小规模部署。1.2 vLLMvLLM(Very Large Language Model)是一个高性能的推理引擎,专注于大规模语言模型的高效推理。它通过动态批处理、显存优化和多 GPU 支持,显著提升了推理速度和资源利用率。
2025-05-05 22:17:45
114
原创 在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别
在AI大语言模型逐渐兴起的时代,或许在特定的领域需要离线、免费、开源的语音处理应用方式。选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡的Demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式,文档太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用很少。
2025-05-01 22:45:32
101
1
原创 Jetson Orin安装riva以及llamaspeak,使用 Riva ASR/TTS 与 Llama 进行实时交谈,大语言模型成功运行笔记
NVIDIA 的综合语音 AI 工具包 RIVA 可以处理这种情况。此外,RIVA 可以构建应用程序,在本地设备(如)上处理所有这些内容。RIVA 在运行 JetPack 5 及更高版本的 Jetson Orin 和 Xavier 系列处理器上运行。在视频中,我们使用的是Jetson Orin模组和国产载板,usb免驱声卡和麦克风耳机。
2025-05-01 22:38:42
76
原创 自己制作智能语音机器人(基于jetson nano)
如上图,主要采用jetson上编写python代码实现,支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。科大讯飞麦克风硬件:AIUI R818麦克阵列开发套件+6麦阵列,支持离线语音唤醒USB免驱声卡+喇叭科大讯飞在线语音识别API科大讯飞在线语音合成API语言大模型API自己制作智能语音机器人,识别鸭脖和老鼠头_哔哩哔哩_bilibili。
2025-05-01 22:35:32
79
原创 NVIDIA JetPack SDK:专为 Jetson 系列边缘计算平台(如 Orin NX Super、AGX Orin)设计的全栈开发工具,用于构建高性能端侧 AI 应用
JetPack SDK 凭借 NVIDIA GPU 生态优势,在端侧高性能 AI 计算领域领先,尤其适合需复杂多模态处理的工业与机器人应用;而 QNN 更适配移动端低功耗场景[12]。参考资料:[1]
2025-05-01 22:11:24
67
原创 Jetson Orin NX Super 的 AI 开发工具链
将 PyTorch/TensorFlow 模型转换为 TensorRT 引擎,提升推理速度(如 Jetson Orin NX Super 的 LLM 推理速度提升 70% [11])。:提供预训练模型库和迁移学习工具,简化 Jetson 端侧模型的微调流程(如零售场景的 OCR 模型优化 [3])。:NVIDIA 的深度学习推理优化器和运行时,支持模型量化(INT8/FP16)、层融合、硬件加速 [13]。支持模型剪枝、量化,适配 Jetson Orin 的内存带宽(102GB/s [7])。
2025-05-01 22:06:00
78
原创 Qwen 2.5 VL 大模型实现目标检测
遍历指定文件夹中的所有图像,批量执行推理,并保存结果。类ColorPalette:这个类管理颜色,用于给边界框着色。它有一个颜色列表,并且可以扩展更多的颜色名称。get_color方法根据索引返回颜色,用于区分不同对象。类JSONParser:这个静态类处理JSON的解析,可能从模型输出中提取JSON部分。parse_json方法可能用于从文本中提取JSON数据,例如当模型输出包含格式化的JSON时,比如用```json包裹的文本。类BoundingBoxPlotter:这个类负责在图像上绘制边界框。
2025-04-30 18:26:41
107
原创 DeepSeek-V3 技术解析:多Token预测(Multi-Token Prediction, MTP)
在文献 [2] 中,作者尝试通过 MTP 技术预测未来的 2 个词元(token),并将其与推测解码相结合,结果发现第二个词元预测的接受率约为 85%~90%,这表明其 MTP 策略的生成质量稳定可靠。因此,上述多词元预测的损失函数将首先被分解为多个单词元(token)预测操作头,然后每个单词元(token)预测头会运行独立的 Softmax 来选择对应词元。此外,模型可能会出现模式奔溃(mode collapse),倾向于生成通用的、高频的词汇,而非细致的响应,从而降低输出的多样性和丰富性。
2025-04-27 00:10:56
109
1
原创 阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践
随着 ChatGPT 的一夜爆火,大模型如今越来越广泛的应用到各种业务领域中,阿里安全的业务领域对大模型技术的应用也已经 2 年有余。本文对阿里安全在大模型工程领域积累的实践经验做出总结和分享。在大模型实际应用实践的过程中,阿里安全采用NVIDIA NeMoTM 框架和大语言模型推理加速库,显著优化了模型训练与推理性能。
2025-04-19 08:18:36
73
1
原创 Tracing the thoughts of a large language model【追踪大型语言模型的思维】
像 Claude 这样的语言模型不是由人类直接编程的——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的解决问题策略。这些策略被编码在模型为每个单词执行的数十亿次计算中。对于我们这些模型开发者来说,这些策略是难以理解的。这意味着我们不理解模型如何完成它们大多数的任务。了解像 Claude 这样的模型如何思考,将使我们更好地理解它们的能力,并帮助我们确保它们按照我们的意图行事。例如:Claude 可以说几十种语言。它“脑海中”使用的是哪种语言(如果有的话)?Claude 一次写一个词。
2025-04-16 23:24:52
118
原创 多模态:Phi-3.5-vision-instruct【4.2B参数】【微软】
Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型,专注于多模态任务处理,尤其是视觉推理方面的能力。参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练使用了256个NVIDIA A100-80G GPU,训练时间为6天。Phi-3.5-vision在多模态多图像理解(MMMU)中的得分为43.0,相较于之前版本有所提升,显示了其在处理复杂图像理解任务时的增强能力。
2025-04-14 00:54:59
97
原创 点云模型专栏(一)概述、特性、存储格式、数据集
点云数据主要是由激光雷达扫描仪进行扫描采集得到的,从本质上来讲是点云是3D空间中无序、无结构的海量数据点的集合,每个点表达目标空间分布和目标表面特性。比如说,扫描某建筑物,得到的每个虚拟的数据点将代表窗户、楼梯、墙壁等任何表面上的真实的点,且包含了如三维坐标、颜色、强度值和入射方向等属性信息。点云数据的获取不仅只有激光雷达扫描这一种方式,还可以利用RGB-D相机同时获取多帧彩色图像和深度图,再利用相机的参数间接生成点云。
2025-04-14 00:40:27
853
原创 3D点云数据分析与处理-传统方法与深度学习
基于3D视觉的新兴应用场景蓬勃发展,3D点云越来越受到人们的广泛关注。点云有着广泛的应用领域包括机器人技术、3D图形、自动驾驶、虚拟现实(AR/VR/MR)等。为了跟上不断增长的应用需要,研究和开发有效存储、处理的相关算法来处理点云的意义正显著上升。传统的分析算法处理点云,主要侧重于对点的局部几何特征进行编码。深度学习在图像数据处理领域取得了巨大的成功,这使得研究相应的点云神经网络结构有极其现实的迫切需求。当前的研究热点主要涉及发展用于各种点云处理任务的深度神经网络。
2025-04-14 00:36:59
890
原创 点云数据(Point Cloub Data)学习笔记
点云是指目标表面特性的海量点集合。通过测量仪器得到的物体外观表面的点数据集合就称之为点云。请注意:上面虽然使用的是 “物体表面”,但其实暗含的意思为 “物体空间表面”。PCD 格式标准是为了更好支持 PCL 库而诞生的。PCL库是什么?PCL(Point Cloud Library) 是一个大型跨平台开源的 C++ 编程库。该库实现了大量点云相关的通用算法和高效数据结构。涉及到点云获取、过滤、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等。结合点云数据的一些特征,又产生了以下一些名词概念。
2025-04-14 00:35:18
1178
原创 3D点云之点云数据介绍
在传统的几何算法中,点云补全主要是基于点云的形状、结构和拓扑等特征进行分析和处理,以构建合理的模型。传统的基于模型匹配的方法通常需要先构建目标物体的模型,并将其与采集的点云数据进行匹配,从而识别出目标物体的位置和姿态。3.目标检测与分类:利用深度学习等方法来对点云数据进行目标检测和分类,目前常用的方法包括基于2D投影的方法、基于3D框架的方法和基于点云分割的方法等。2.点云特征提取:通过点云的几何和拓扑属性来提取特征,常见的方法包括基于形状的特征、基于法向量的特征、基于表面曲率的特征等。
2025-04-14 00:33:22
983
原创 图像分割综述之语义分割
图像分割是将一幅图像分成多个子区域的过程,使得每个子区域内的像素具有相似的特征。图像分割是计算机视觉领域中的一个基础问题,被广泛应用于医学影像分析、目标跟踪、自动驾驶等领域。语义分割是图像分割的一种特殊形式,即将图像中的每个像素划分到一组预定义的语义类别中,与物体实例无关。因此,语义分割可以被视为图像分类问题的推广,而不是像素级别的物体检测或实例分割问题。语义分割是许多计算机视觉任务中的基础,如自动驾驶、智能视频监控等领域,因为它能够帮助计算机理解图像中不同区域的语义含义,从而做出更准确的判断和决策。目前,
2025-04-14 00:25:32
723
《Approaching (Almost) Any Machine Learning Problem》
2023-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人