自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4793)
  • 资源 (4)
  • 收藏
  • 关注

原创 TensorRT推理:能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

直接在 RTX 5080 上生成 engine 再拿去 Jetson Orin 跑:基本不行,也不被官方推荐。只在服务器上训练和导出 ONNX;在 Orin 上用 TensorRT 从 ONNX 重新构建 engine,然后把构建好的 engine 缓存下来重复使用。如果你愿意,我可以帮你把当前的改成一份更适合 Orin 的版本(包含显存友好的一些设置和 INT8/FP16 配置),你直接复制过去就能用。

2025-12-10 22:05:28 26

原创 FLOPs计算详解-LLM训练-基础知识01:反向传播【dW=∂L/∂W:当前层的权重参数梯度;dX:传给前一层算dW的上游梯度】【在最后一层:dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

X当前层的输入矩阵:每一行是一条样本里的一个“位置”的向量。W当前层的权重矩阵(要学习的参数),比如注意力里的 Q/K/V/O 权重、FFN 的 W1/W2/W3 等。Y = XW当前层的输出矩阵。会被送给激活函数 / 下一层 / loss 计算等。L是一个标量,表示模型整体表现好不好(越小越好)。一般是所有样本的 loss 之和或平均,比如交叉熵。G = ∂L/∂Y上游梯度:告诉你“如果 Y 的某个元素变大一点,L 会变大还是变小,以及大小是多少”。

2025-12-07 02:45:20 33

原创 FLOPs计算详解-VLM训练01:Vision+Projector+LLM【连续编码+Full-FT:6SN_vis+6SN_pro+6(S+T)N_llm】【Lora:2/3 Full-FT】

Vision encoder 把图像变成视觉特征(S 个向量,连续或离散);Projector 把视觉特征送入 LLM 空间;LLM 对视觉 + 文本 token 序列做语言建模。连续型(vision 也训):\approx离散型 + 离线 tokenizer:去掉 6BSN_vis,那部分 FLOPs 变为 0(训练时只读 code)。对同一条图文对(同样 S,T),Vision/Projector/LLM blocks 的 FLOPs 几乎完全相同;

2025-12-06 22:20:53 31

原创 FLOPs计算详解-LLM训练03:Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量​)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

完整的 LLaMA-2 FLOPs 计算笔记:通用符号:先把最关键的结论用一句人话说出来,然后再一点点推:你提的“能不能不算原始权重的 dX,只算 LoRA 分支的 dW/dX”理论上可以做成一种近似算法,那样 FLOPs 会更省,但那就不是标准 LoRA 的“正确反向”了。目前 peft 并没有这么做。记号和背景(先统一语言)我们讨论的是一层线性变换,放在 Transformer 里的某个位置,比如 attention 的 Q/K/V 投影或者 FFN 的 W1/W2/W3。BBB:batch size,

2025-12-06 22:10:03 25

原创 FLOPs计算详解-LLM训练-基础知识02:FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

GGG激活(activations)就是网络在前向传播过程中,每一层算出的“中间结果”。比如每层的隐藏向量、每个非线性层的输出等等。

2025-12-06 18:27:21 26

原创 FLOPs计算详解-LLM训练02:冻结参数(硬冻结、软冻结)对FLOPs的影响

在同一条 pretrain 样本(相同 token 序列长度 T)如果是“硬冻结”(在中间层detach,下半层仅做前向,不参与反向):Chalf≈23CfullChalf​≈32​Cfull​→节省约 33% 的训练算力(主要体现在底部 L/2 层没有 backward)。如果只是“软冻结”(参数不求梯度,但梯度仍穿过这些层):Chalf≈56CfullChalf​≈65​Cfull​→只节省约 17% 的算力,因为仅去掉了dW。

2025-12-06 17:28:41 20

原创 FLOPs计算详解-LLM训练01:【前向(2N)、反向(4N)、adamW(可忽略)】【全参训练:Pretrain、SFT的FLOPs的对比(FLOPs无差别,区别在于反向传播时的显存占用不同)】

好,我们来把这几轮你问过的点一次性“收束”成一份2Tdin​dout​Tdmodel​Ldff​BCfwd​≈2NDCtrain​≈6ND。

2025-12-06 13:22:21 22

原创 jetson orin nx super非桌面版 设置静态 IP 为 192.168.1.7 的方法

你这台 Jetson 的/etc里看起来netplan,但有,再结合你前面的ip a,可以确定这机子主要是靠管网的。好消息是:你现在wlP1p1s0,我们只需要把它从 “DHCP 自动获取” 改成 “手动固定 192.168.1.7”,以后重启也一直是这个 IP。下面给你一套。

2025-11-22 11:12:24 388

原创 DINOv3 元数据生成详解

元数据(Metadata)是描述数据集的预处理索引文件,用于加速训练时的数据加载。传统加载# 将整个文件加载到内存data = np.load('entries-TRAIN.npy') # 占用 ~50 MB 内存内存映射# 不占用内存,按需加载data = np.load('entries-TRAIN.npy', mmap_mode='r') # 占用 ~0 MB 内存。

2025-11-22 10:44:08 843

原创 ImageNet-1k数据集

AlexNet(2012)在 ImageNet 竞赛上实现了巨大突破,直接把 deep learning 推向计算机视觉的中心舞台,“ImageNet moment”。许多模型(ResNet、DenseNet、MobileNet、ViT 等)都先在 ImageNet-1k 上预训练,再迁移到下游任务(检测、分割等)。“在 ImageNet 上预训练”、“ImageNet top-1 acc”、“ResNet-50 在 ImageNet 上 76% top-1”

2025-11-21 20:53:46 878

原创 2022-2025视觉编码器范式:离散型与连续型进展深度调研

多模态时代背景: 自2022年底ChatGPT掀起新一轮AI热潮以来,视觉-语言模型(VLM)和多模态大模型(MLLM)成为研究前沿,在图文对答、视觉推理等任务上取得显著进展[1]。这波进展源于Transformer架构跨模态的成功:Vision Transformer (ViT)将NLP中序列输入+Transformer编码器范式引入视觉领域,统一了CV与NLP的处理方式[2]。随后OpenAI的CLIP等跨模态预训练模型进一步打通图像与语言表征鸿沟,奠定了现代多模态模型架构基础[2]。然而,最新研究表明

2025-11-21 20:51:18 582

原创 2022–2025年中国AI公司语音编码器技术进展调研报告

只需几秒参考录音,它就能产生与之音色相同的新句子语音,并允许用户用指令改变音色属性,如要求生成“

2025-11-21 20:49:38 201

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势,并讨论未来可能的研究方向,例如离散与连续表征的融合等。接下来,各章节将详细阐述上述内容,并在末尾附上一份表格,列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:48:55 82

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势,并讨论未来可能的研究方向,例如离散与连续表征的融合等。接下来,各章节将详细阐述上述内容,并在末尾附上一份表格,列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:46:53 55

原创 视觉编码器在多模态AI时代的演进:2023年至2025年离散型与连续型范式的深度分析

此外,研究还表明,视频生成模型的骨干(如世界模型)可以作为可迁移的编码器,用于增强下游感知任务,这进一步拓宽了连续编码器的应用范围 [16]。尽管技术飞速发展,最新的研究表明,在处理涉及视觉证据的推理任务时,VLMs的回答正确性与图像中可用的视觉证据之间存在一个“持续且令人费解的差距” [1]。在潜空间扩散模型(LDM)的背景下,连续型变分自编码器(VAE)是至关重要的组件,用于将高分辨率原始视觉数据压缩到一个紧凑的连续潜空间,从而大幅降低后续扩散模型训练的计算复杂度 [4]。是提升性能的关键路径。

2025-11-20 21:35:45 117

原创 视觉编码器01:离散型编码器 & 连续型编码器论文总览

下面为你整理。我将按类别、时间线与代表方法进行结构化整理,覆盖从基础工作到 2024–2025 最前沿成果。你可直接用于调研、写综述或制作 PPT。

2025-11-20 21:19:52 48

原创 音频编码器02:连续性

2025-11-20 20:55:49 27

原创 音频编码器01:离散型(从零训练语音Tokenizer)

我分别给你讲怎么训,并附带能直接抄的开源仓库。

2025-11-19 22:50:09 44

原创 从零训练Qwen3-VL

如果你未来想做的是「在公开权重上继续做大规模多模态 pretrain(比如换数据、换目标函数)」而不是在完全随机初始化上起步,这两类代码会比 Open-Qwen2VL 更直接。参考 Qwen2-VL / Qwen2.5-VL 披露的流程,可以大致推测 Qwen3-VL 也是类似的三阶段:(直接在学术算力(8×A100-40G)上从零预训练了一个 2B 参数的多模态 Qwen2-VL 风格模型:(的配置和训练脚本,理解它是如何把「任意 ViT + 任意 LLM + 任意图文数据」拼在一起的。

2025-11-19 21:12:12 144

原创 机器人开源项目分类与rsl-rl学习指南 - 教程

作为具身智能的学习者,除了学习机器人末端抓取以外,其实机器人控制和运动其实是挺关键的。而这方面网上的资料其实是比较零散的。这里我们来收集基于《具身智能和人形机器人项目汇总》这篇的基础上继续拓展,并给出学习路线,同时给出rsl_rl的学习内容。

2025-11-17 22:03:18 56

原创 【IsaacGym速通2】四足机器人RL demo unitree_rl_gym 代码框架分析

奖励函数: reward_names = ['action_rate', 'ang_vel_xy', 'collision', 'dof_acc', 'dof_pos_limits', 'feet_air_time', 'lin_vel_z', 'torques', 'tracking_ang_vel', 'tracking_lin_vel']- 概率比 r(θ) = exp(log_prob_new - log_prob_old)- Critic 的目标是让 V(s_t) 逼近这个目标。

2025-11-17 21:59:55 64

原创 ubuntu22.04设置目录权限【设置 store_wyr 目录只能wyr访问】【设置/media/wyr/my_data可以让lixm用户查看】

通过使用setfacl命令,你可以确保lixm用户有权限查看目录 /media/wyr/my_data,而不需要改变目录的所有者。

2025-11-17 20:53:56 166

原创 机器人模型格式

https://www.bilibili.com/video/BV1H61TBMEfy?vd_source=e9d66d9407f5a18bdac65fb386a13c36&spm_id_from=333.788.player.switch

2025-11-16 22:47:35 51

原创 目标检测-20200526:DETR (DEtection TRansformer) 详细分析

DETR (DEtection TRansformer) 是Facebook AI Research在2020年提出的一种端到端的目标检测模型。它革命性地将目标检测问题转化为集合预测问题,摆脱了传统方法中需要的锚框(anchor)、非极大值抑制(NMS)等手工设计的组件。DETR将目标检测问题重新定义为集合预测问题传统方法: 图像 → 特征 → 密集预测 → NMS → 最终检测结果DETR方法: 图像 → 特征 → Transformer → 直接预测固定数量的目标组件公式作用自注意力。

2025-11-13 23:24:35 848

原创 RL-算法-20250815:CHORD中的CHORD-φ【把SFT(离策略、基于专家示范)与RL(在策略、基于回报)真正融合,把 SFT 视作在 RL 过程中的辅助项,不是独立阶段】

相对“原始 SFT=平均交叉熵”,

2025-11-11 01:15:30 1065

原创 数字图像处理-1-50

在数字图像处理领域,本书作为主要教材已有40多年。第四版是作者在前三版的基础上修订而成的,是前三版的发展与延续。除保留前几版的大部分内容外,根据读者的反馈,作者对本书进行了全面修订,融入了近年来数字图像处理领域的重要进展,增加了几百幅新图像、几十个新图表和上百道新习题。全书共12章,即绪论、数字图像基础、灰度变换与空间滤波、频率域滤波、图像复原与重建、小波变换和其他图像变换、彩色图像处理、图像压缩和水印、形态学图像处理、图像分割、特征提取、图像模式分类。

2025-11-08 15:49:14 1060

原创 使用Ollama运行非Ollama官方仓库(自定义)的大模型

https://www.bilibili.com/video/BV1WkbjenEF5/?spm_id_from=333.337.search-card.all.click&vd_source=e9d66d9407f5a18bdac65fb386a13c36

2025-11-05 23:12:35 79

原创 VLLM 与 Ollama:如何选择合适的轻量级 LLM 框架?

VLLM(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。快速令牌生成:采用连续批处理技术,让令牌生成速度大幅提升。高效内存利用:借助PagedAttention技术,在处理大上下文窗口时,能有效控制GPU内存消耗。无缝集成:与PyTorch、TensorFlow等主流深度学习平台兼容,可轻松融入AI工作流程。VLLM深受AI研究人员和需要大规模高性能推理的企业青睐。Ollama是一个本地大语言模型运行时环境,能简化开源AI模型的部署和使用流程。

2025-11-05 21:57:29 70

原创 Ollama:开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型

Ollama是一个开源的人工智能(AI)和机器学习(ML)工具平台,特别设计用于简化大型语言模型(LLM)的部署和使用流程。用户可以通过Ollama在本地环境中便捷地运行各种大型语言模型,比如Llama 2和其他开源模型。易用性:提供了类似于OpenAI API的简单接口,用户可以快速上手并调用模型进行内容生成,同时也包含一个类似ChatGPT的聊天界面,可以直接与模型进行交互。跨平台支持:支持macOS、Linux 和 Windows 操作系统,让用户能够在不同平台上本地运行大型语言模型。

2025-11-05 21:54:18 49

原创 llama.cpp:一个使用C++/C 进行llm推理的软件框架(同比类似vllm、TensorRL-LLM等)。但不要被其名字误导,该框架并不是只支持llama模型,其是一个支持多种llm模型,多种

llama.cpp是由个人创办的一个使用C++/C 进行llm推理的软件框架(同比类似vllm等)。但不要被其名字误导,该框架并不是只支持llama模型,其是一个支持多种llm模型,多种硬件后端的优秀框架。

2025-11-05 21:52:38 27

原创 GGUF:一种大模型文件格式(专为 llama.cpp 设计)【相较于Hugging Face和torch的bin文件,GGUF采用了紧凑的二进制编码格式,提供了更高效的数据存储和访问方式】

GGUF()是由(著名开源项目llama.cpp的创始人)定义发布的一种大模型文件格式。GGUF 继承自其前身 GGML,但 GGML 格式有一些缺点,已被完全弃用并被 GGUF 格式取代。GGUF 是一种二进制格式文件的规范,原始的大模型预训练结果经过转换后变成 GGUF 格式可以更快地被载入使用,也会消耗更低的资源。原因在于 GGUF 采用了多种技术来保存大模型预训练结果,包括采用紧凑的二进制编码格式、优化的数据结构、内存映射等。

2025-11-05 21:47:31 54

原创 LM Studio:一款在本地部署大模型的桌面应用程序

LM Studio是一个在本地部署大模型的桌面应用程序,它具有搜索、下载、运行模型的功能,可以管理多个模型,有聊天界面。

2025-11-05 21:42:07 119

原创 Unsloth:专为大语言模型(LLM)优化的 微调与加速框架,重点解决了开发者在硬件受限环境下的训练与推理效率问题

Unsloth 是一个专为大语言模型(LLM)优化的 微调与加速框架,重点解决了开发者在硬件受限环境下的训练与推理效率问题。它通过对内存管理、计算优化以及低精度训练的支持,让用户能够在 单块消费级 GPU(如 RTX 3060/4060) 上完成原本需要昂贵算力才能完成的模型训练与应用。unsloth 支持主流模型(如 LLaMA、Mistral、Gemma、Qwen 等)。

2025-11-05 21:38:23 30

原创 Tokenizer: Qwen3 Tokenizer 详细解析【Qwen/Qwen3-4B-Instruct-2507】

Isolated” 行为一旦片段被第1层的正则表达式匹配并分割,就被标记为第2层看到的片段时,跳过分割,只进行编码转换这确保了第1层的分割结果不会被第2层破坏单层分割: 只有第1层进行分割,第2层只编码片段列表处理: 每层处理的是片段列表,而非单一文本Isolated 标记: 第1层的所有输出都标记为非破坏性: 第2层不会破坏第1层的分割结果确定性: 相同输入总是产生相同输出。

2025-11-03 21:15:23 88

原创 最大匹配问题——匈牙利算法通俗理解

所以这就是一个套娃:我能不能抢夺成功,取决于被我抢夺的人能不能匹配成功或抢夺成功,也就是取决于被我抢夺的人能不能匹配成功或被被我抢夺的人抢夺的人能不能匹配成功或抢夺成功,也就是取决于被我抢夺的人能不能匹配成功或被被我抢夺的人抢夺的人能不能匹配成功或被被被我抢夺的人抢夺的人抢夺的人能不能匹配成功或抢夺成功……总结下最大匹配问题。1,你最好不要一上来就把这个问题的解法归结为某种流程,或者一上来就看它的流程是怎么写的。你最好从具体例子入手,看看在某个具体例子中,这个问题是怎么解的。然后感受这个解法。

2025-10-31 23:34:24 707

原创 Ubuntu22.04 设置静态 IP 的方法

https://blog.csdn.net/qq_42417071/article/details/136328625

2025-10-27 19:30:28 169

原创 语义分割(Semantic Segmentation):输入图像数据【512×512×3(3是通道数)】➔输出像素级分类结果【512×512×C(C是类别数)】

语义分割是计算机视觉中的一项任务,目标是为图像中的每一个像素分配一个类别标签。数据格式输入:RGB图像HW3(H, W, 3)HW3标签:类别索引HW(H, W)HW,每个值是000到C−1C-1C−1模型结构编码器:提取特征,逐步缩小解码器:恢复分辨率,逐步放大跳跃连接:保留细节信息损失函数交叉熵:衡量分类准确性Dice:衡量分割重叠度组合使用效果更好训练过程前向传播:输入→特征→预测→损失反向传播:计算梯度参数更新:优化器调整权重。

2025-10-19 22:17:20 568

原创 NMS(非极大值抑制):目标检测后处理步骤

非极大值抑制(Non-Maximum Suppression,NMS)是目标检测算法中的一个后处理步骤,用于去除重复的检测框,保留最优的检测结果。作用:去除重复检测框,保留最优结果原理:基于IoU的硬删除策略优点:简单高效,适合大多数场景缺点:密集目标容易漏检。

2025-10-19 22:08:17 470

原创 交叉熵损失 (CE/Cross-Entropy Loss) vs 均方误差损失 (MSE/Mean Squared Error):适用场合详细对比

想象你在学习射箭:损失函数就是用来衡量"预测值"和"真实值"之间差距的数学工具。找到最优参数θ∗=arg⁡min⁡θL(θ)\text{找到最优参数} \theta^* = \arg\min_{\theta} L(\theta)找到最优参数θ∗=argθmin​L(θ)其中:对于单个样本:LMSE=(y−y^)2L_{MSE} = (y - \hat{y})^2LMSE​=(y−y^​)2对于 nnn 个样本:LMSE=1n∑i=1n(yi−y^i)2L_{MSE} = \frac{1}{n}

2025-10-19 21:11:17 595

原创 分类任务场景下详细对比交叉熵损失 (CE/Cross-Entropy Loss) 与 均方误差损失 (MSE/Mean Squared Error)

对于多分类问题,假设有CCCSoftmax函数piezi∑j1Cezjpi​∑j1C​ezj​ezi​​ziz_izi​是模型对第iii类的原始输出(logits)pip_ipi​是预测第iii类的概率∑i1Cpi1∑i1C​pi​1(所有概率之和为1)交叉熵损失函数LCE−∑i1Cyilog⁡piLCE​−i1∑C​yi​log。

2025-10-19 21:01:52 353

特殊字符 VLA扩散模型完整实现 - Complete VLA Diffusion Model Implementation

vla-config.py

2025-10-02

英文单词拼写混淆集:spell-errors.txt

英文单词拼写混淆集:spell-errors.txt

2021-04-05

《Approaching (Almost) Any Machine Learning Problem》

《Approaching (Almost) Any Machine Learning Problem》

2023-09-13

中文小说短句序列文本复述数据集

中文小说短句序列文本复述数据集

2023-07-29

时间序列预测-第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

2023-02-26

stop-words.txt

stop_words.txt

2022-11-17

clustering-test-data

文本聚类测试数据

2022-11-17

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

带有词频的词典库:vocab.txt

带有词频的词典库:vocab.txt

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除