自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

robin_ze的博客

入门级程序员

  • 博客(15)
  • 收藏
  • 关注

原创 InternVL系列论文笔记

InternVL系列论文笔记摘要:InternVL系列是上海AILab推出的开源多模态大语言模型(MLLM),旨在缩小与商业模型的差距。该系列采用"ViT-MLP-LLM"三段式架构,核心创新在于系统性的工程优化和训练策略。

2026-01-26 16:53:14 753

原创 Qwen3-VL架构及核心模块

Qwen3-VL基于2.5版本进行升级,主要包括:带有细粒度语义提取能力的图文对齐encoder(SigLIP2)、解决长视频探索问题的位置编码(MoPE-I)、更丰富和深层次的模态融合机制(DeepStack)以及增强视频处理能力的时间编码(TimeStack)。通过上述架构更新,连通多阶段训练,Qwen3-VL实现更优异的性能表现。

2025-12-18 18:58:27 1353

原创 Kimi Linear的前身:由Gated Delta Rule扩展的Linear Attention

本文推导了线性注意力机制(Linear Attention)及其改进方法DeltaNet的计算公式。首先分析了标准自注意力机制通过分解指数项实现线性近似。然后介绍了DeltaNet的核心思想:采用增量更新规则动态调整记忆矩阵,通过引入遗忘机制解决长序列处理问题。文章详细推导了DeltaNet的数学形式,包括其线性性质和分块并行计算方法,证明了该模型能有效平衡记忆保留与更新。最后给出了DeltaNet的分块实现公式,为高效处理长序列提供了理论基础。

2025-11-27 11:07:03 927

原创 DeepSeek-OCR 模型结构 笔记

DeepSeek-OCR采用创新性的编码器-解码器架构处理文档OCR任务。编码器部分使用双塔架构DeepEncoder,结合SAM和CLIP模型,支持多分辨率输入(512-1280像素),通过智能填充和局部+全局视角处理不同尺寸图像。解码器采用MoE架构。该模型的创新架构有效平衡了计算成本和识别精度。

2025-11-11 18:01:24 898

原创 LLM实战【书生·浦语 InternLM实战营】6 - Lagent与AgentLego

使用InternLM的lagent和AgentLego功能

2024-04-27 12:34:34 226 1

原创 LLM实战【书生·浦语 InternLM实战营】5 - LMDeploy模型部署过程

使用LMDeploy部署、量化及应用

2024-04-27 11:42:32 245 3

原创 LLM实战【书生·浦语 InternLM实战营】4 - 复现finetune过程

使用xTuner微调过程的图片展示

2024-04-27 11:31:40 309 1

原创 LLM课程【书生·浦语 InternLM实战营】6 - 智能体

智能体及Lagent、AgengLego方法

2024-04-21 19:26:18 403 1

原创 LLM课程【书生·浦语 InternLM实战营】5 - 模型部署

大语言模型部署的背景及方法,使用LMDeploy服务化部署大模型

2024-04-21 18:58:58 285 1

原创 LLM课程【书生·浦语 InternLM实战营】4 - Finetune

LLM finetune介绍,及XTuner微调框架的特点

2024-04-21 14:17:50 333 1

原创 LLM课程【书生·浦语 InternLM实战营】3 - RAG

RAG:以茴香豆为例,通过LLM搭建基于数据库的智能问答助手

2024-04-20 20:48:33 390

原创 LLM实战【书生·浦语 InternLM实战营】2

使用InternLM2-Chat-1.8B 模型生成 300 字的小故事

2024-04-20 14:08:24 349

原创 LLM课程【书生·浦语 InternLM实战营】1

LM课程第二期第一节,书生·浦语大模型全链路开源体系

2024-04-20 12:07:52 210

原创 scheduler:pytorch训练过程中自动调整learning rate

import torch.optim as optimoptimizer = optim.Adam(net.parameters(), lr=1e-3, betas=(0.9, 0.99))在使用pytorch训练神经网络时,可能需要根据情况调整学习率(learning rate)

2021-02-09 12:05:27 1404

原创 pickle与.pkl文件

@[TOC].pkl文件 与 pickle方法经常遇到在Python程序运行中得到了一些字符串、列表、字典等数据,想要保存下来,长长久久的,方便以后使用,这个时候Pickle模块就派上用场了。pickle 模块及其同类模块 cPickle 向 Python 提供了 pickle 支持,它可以将对象转换为一种可以传输或存储的格式(后者使用 C 编码,具有更好的性能)。pickle对python对象的转换Pickle模块将任意一个Python对象转换成一系统字节的这个操作过程叫做串行化对象。pickle

2021-02-01 12:22:21 3222 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除