椒椒。-CSDN博客

原创 YaRN（“Yet Another RoPE extension”)——RoPE的升级版

YaRN

2025-12-11 09:34:30 845

原创 deepseek-V2完整参数配置

deepseek-v2参数配置

2025-12-02 13:42:21 271

原创 deepseekv2———MLA与解耦位置编码-详细原理解析

MLA（Multi-Head Latent Attention）完整解析：从原理到公式详解。

2025-11-11 17:47:33 1035

原创 deepseek-v2之MLA（Multi-Head Latent Attention）潜在注意力机制

摘要：DeepSeek-V2的MLA（Multi-Head Latent Attention）通过KV压缩解决Transformer的KV Cache瓶颈。传统方法需缓存所有历史token的高维Key/Value向量（显存占用大），而MLA利用低秩压缩将KV映射到潜空间，仅需存储压缩后的低维向量$\mathbf{c}_t^{KV}$，显存占用减少87.5%（如$d_c=1024$时压缩比达8×）。

2025-11-10 14:55:58 1070

原创 SpeechT5 模型训练注意的事项（vocabs词典构建，语音序列压缩与扩张）

SpeechT5 模型训练注意的事项（vocabs词典构建，语音序列压缩与扩张）

2025-09-03 09:59:04 901

原创缩放定律（Scaling Laws）

缩放定律（Scaling Laws）

2025-08-25 15:44:15 958

原创 BBPE（Byte-level BPE）子词（subword）分词算法

BBPE 分词算法详解 BBPE（Byte-level BPE）是现代大模型的核心分词技术，通过字节级编码和预分词规则解决传统BPE的局限性。其核心流程包括：将文本转为UTF-8字节序列、运行BPE算法合并高频字节对、构建词汇表。关键技术突破在于：预分词机制 - 通过空白符分割、标点隔离和CJK字符保护，防止无意义合并数字处理 - 用正则表达式或自定义规则强制拆分数字为单个digit 字节级编码 - 原生支持多语言、emoji和特殊符号典型应用包括GPT系列和Llama模型，Hugging Face工

2025-08-20 14:20:58 1104

原创大模型数据预处理

大模型数据预处理学习

2025-08-19 09:56:32 1333

原创 Could not find platform independent libraries ＜prefix＞ Consider setting $PYTHONHOME to ＜prefix＞[:＜ex

报错问题解决

2025-08-13 16:06:02 953

原创 Qwen3论文研读

qwen3论文研读

2025-07-29 14:45:01 1384 1

原创思维预算基本概念及其预算配置

思维预算及其预算配置

2025-07-24 10:33:14 1511

原创大模型蒸馏-在线蒸馏与离线蒸馏（1）

大模型蒸馏理论

2025-07-18 11:03:14 1170

原创奖励黑客（Reward Hacking）

奖励黑客（Reward Hacking）

2025-07-17 17:26:50 934

原创 vannaai本地部署安装

vannai本都部署实现texttosql

2025-03-20 16:14:21 2433 1

原创 ollama本地大模型，ollama及其openai接口实现

ollama本地部署大模型接口实现

2025-03-20 15:54:10 2001

原创论文研读0530（基于循证思维的档案文献遗产数据故事化模型构建研究）

目的/意义]对于文化产业，认知门槛低、交互体验强、记忆点鲜明的数据故事丰富了文化传承与传播路径，为唤醒集体记忆提供新媒介。但是目前数据故事化研究主要集中于故事内容的生成，忽略了对来源数据的前期控制，使得故事的可信度和完整性受到质疑。[方法/过程]引入循证思维，构建档案文献遗产的数据故事化模型，秉持可溯源循证、可信赖循证、可解释循证三项基本原则，全面搜寻事件证据，基于时空关联和语义逻辑构建事件证据链，结合多元互证方法，旨在创造更加准确的故事。

2024-05-30 17:06:49 2057