- 博客(86)
- 收藏
- 关注
原创 【词汇专栏】PagedAttention:分页注意力——推理引擎的显存革命
借鉴OS分页:按需分配KV Cache显存利用率:40% → 90%(提升125%)吞吐量提升:3-4倍延迟降低:60-70%vLLM生产级实现:业界标配PagedAttention = 存储层优化FlashAttention = 计算层优化Speculative Decoding = 生成加速三者结合 = 极致推理性能ChunkKV:长上下文压缩ThinKV:推理模型优化R-KV:NVIDIA原生加速“没有PagedAttention,就没有AI的实时体验!
2026-04-21 08:59:32
364
原创 【词汇专栏】Chain of Density:密度链——AI摘要的进化
问题说明问题1长度固定,容易丢失信息——用户说"100字摘要" → 模型截断 → 关键信息被砍问题2不知道该保留什么——"重要"的定义因人而异,模型可能保留不重要的细节问题3一次性决策,容易出错——摘要只有一次机会,错了就没法补救问题4信息密度不均匀——开头详尽,结尾草草收场方法特点优点缺点Extractive直接提取原文句子保留原话,不会出错信息碎片化生成式摘要连贯通顺可能产生幻觉针对问题摘要精准回答需要指定问题迭代式浓缩信息密度高计算成本翻倍。
2026-04-17 21:29:53
336
原创 【词汇专栏】DPO:直接偏好优化——让大模型对齐变得更简单
简化对齐:用分类问题代替强化学习稳定训练:不需要PPO,不调几十个超参数高效计算:只需前向传播,不需要采样开源可用:TRL、FastChat等工具开箱即用IPO:加正则项,更稳定KTO:利用损失厌恶心理CPO:对比学习增强扩散模型DPO:图像生成也能用“对齐不再是大厂专属,中小团队也能训练自己的ChatGPT!
2026-04-17 21:29:42
338
原创 【词汇专栏】Reasoning Model:推理模型——o1/o3/o4的崛起
传统LLM的工作方式:"两个鸡蛋+三个鸡蛋=?→ 直接从训练知识中检索答案 → "5个鸡蛋"Reasoning Model的工作方式:"两个鸡蛋+三个鸡蛋=?→ 内部展开思考链:"让我想想,我有两个鸡蛋,又拿来三个...""所以一共是5个鸡蛋"→ 输出答案:"5个鸡蛋"范式转变:从"知识检索"到"动态推理"技术突破:Test-time Compute性能飞跃:数学/代码能力质的提升代表作:OpenAI o系列、DeepSeek R1ARC-AGI达87.5分(超人类水平)
2026-04-17 21:29:18
393
原创 【词汇专栏】Speculative Decoding:投机解码的智慧
核心洞察:验证比生成快(10倍差距)方法:小模型猜,大模型验效果:2-3倍加速,保证输出质量本质:用并行换串行,用小错换大效EAGLE系列:接受率突破85%+LongSpec:长上下文支持Medusa:无需额外小模型自适应:动态调整猜测策略"投机"不丢人,省力才是真聪明!
2026-04-17 21:28:34
407
原创 【词汇专栏】KV Cache:大模型推理的加速引擎
││ KV Cache的核心价值:││ ├─ 时间换空间:用显存换速度│ ├─ 避免重复计算:O(N²) → O(N)│ ├─ 吞吐提升:5-10倍甚至更高│ └─ 是大模型推理引擎的标配优化││ 2026年进化:│ ├─ PagedAttention:显存管理革新│ ├─ ChunkKV/ThinKV:长上下文压缩│ └─ LongSpec:超长推理加速││ 没有KV Cache,就没有大模型的实时响应体验!│。
2026-04-17 21:28:10
336
原创 【词汇专栏】Function Calling:让AI调用外部工具的手
"description": "获取指定城市的天气信息","city": {"description": "城市名称,如北京、上海"},"unit": {"description": "温度单位"},││ Function Calling的核心价值:││ ├─ 突破知识时效性 → 实时获取最新数据│ ├─ 突破"纸上谈兵" → 真正执行操作│ ├─ 标准化接口 → 一次定义,随处调用│ └─ 扩展能力边界 → AI可以操控任何系统│。
2026-04-16 23:43:38
243
原创 【词汇专栏】多模态(Multimodal):当 AI 学会用“五种感官“感受世界
多模态(Multimodal)指 AI 系统能够同时处理和关联多种类型的数据——文本、图像、音频、视频等,就像人类用视觉、听觉、语言等多种感官协同理解世界一样。人类感知世界的模态:👁️ 视觉(图像、视频)—— 看到的东西👂 听觉(语音、音乐)—— 听到的声音🗣️ 语言(文字、对话)—— 读到的文字✋ 触觉(纹理、温度)—— 摸到的感觉👃 嗅觉/味觉 —— 闻到和尝到的AI 目前能处理的模态:📝 文本(Text)—— 最成熟🖼️ 图像(Image)—— 非常成熟。
2026-04-16 23:43:27
346
原创 【词汇专栏】思维链(Chain-of-Thought):让 AI “一步步想“
思维链(Chain-of-Thought,简称 CoT)是一种提示技术,通过引导大模型在给出最终答案前先展示推理的中间步骤,从而显著提升复杂推理任务的准确率。让 AI "慢慢想"比让它"快快答"更可靠。这个看似简单的道理——先展示推理过程,再给出最终答案——不仅大幅提升了复杂任务的准确率,还催生了 o1、DeepSeek-R1 等新一代"推理模型",让 AI 从"秒回答案的答题机器"进化为"会思考的问题解决者"。
2026-04-16 23:43:14
364
原创 【词汇专栏】Transformer:AI 大模型的“通用引擎“
Transformer 是一种基于自注意力(Self-Attention)机制的深度学习架构,于2017年由 Google 团队提出,彻底取代了 RNN/LSTM,成为当今几乎所有大模型的基石。Transformer 用"自注意力"这一优雅的机制,让 AI 模型能够同时看到所有信息并自主决定关注重点。它是 2017 年以来 AI 领域每一项重大突破的底层引擎——没有 Transformer,就没有 GPT、没有 ChatGPT、没有今天你所看到的 AI 革命。
2026-04-16 23:43:01
346
原创 【词汇专栏】嵌入(Embedding):把一切变成 AI 能懂的“数字地图“
嵌入(Embedding)是一种将离散的数据(文字、图片、音频等)转换为连续向量的技术,使得语义上相似的内容在向量空间中也彼此接近。嵌入是 AI 理解世界的"翻译系统"——它把人类能感知的一切(文字、图片、声音)翻译成数字,同时保留了语义关系。没有嵌入,AI 就是一个只会做数学运算的机器;有了嵌入,它才"看懂"了这个世界。标签#AI术语#嵌入#Embedding#向量表示#Word2Vec#语义空间#RAG。
2026-04-16 23:42:50
294
原创 【词汇专栏】FlashAttention:大模型训练的加速器
传统Attention要把所有中间结果存到HBM(显存),FlashAttention通过"分块计算"只需存少量数据,显存占用从O(N²)降到O(N),速度反而更快。2026年,FlashAttention已是大模型训练的"标配加速器"。
2026-04-15 22:22:24
373
原创 【词汇专栏】微调(Fine-tuning):让“通才“变成“专家“
微调(Fine-tuning)是指在预训练模型的基础上,用特定领域或任务的数据继续训练,让通用模型适应特定场景的过程——就像让一个大学毕业生接受岗位培训后胜任具体工作。如果预训练是让 AI 上完"大学",微调就是让它参加"岗前培训"——用少量特定领域的数据,让通才变成专家。微调 + RAG + 好提示词,是让大模型真正为你所用的"三板斧"。
2026-04-15 22:22:05
187
原创 【词汇专栏】提示词(Prompt):你和 AI 说话的“遥控器“
提示词(Prompt)是用户输入给大语言模型的文本指令,用于明确告诉模型你想让它做什么、怎么做、做到什么标准。写好提示词的技术叫"提示工程(Prompt Engineering)"。提示词是人和 AI 之间的"语言接口"——同一个 AI 模型,在你的提示词引导下可以变成律师、程序员、写作教练或数据分析师。掌握提示工程,不是学会"操控 AI",而是学会"和 AI 有效沟通"。标签#AI术语#提示词#Prompt#提示工程#大模型。
2026-04-15 22:21:47
366
原创 【词汇专栏】温度(Temperature):AI 输出的“随机性调温器“
温度(Temperature)是大语言模型解码时的一个超参数,通过调节概率分布的"尖锐程度"来控制输出结果的随机性——温度越低越确定,温度越高越随机。温度是控制 AI 输出"性格"的旋钮——低温度让 AI 变成一个严谨的报告员,高温度让它变成一个脑洞大开的诗人。理解温度,就是理解了如何让 AI 的输出"恰到好处"。标签#AI术语#温度#采样策略#参数调优#大模型。
2026-04-15 22:21:16
369
原创 【AI Agent实战手册】AG14:2026年Agent生态全景——从协议到工具的完整地图
MCP让Agent能连接任何工具A2A让Agent之间能互相协作Skills让Agent能快速获得专业能力框架让开发者能高效构建Agent下一波机会,属于找到具体场景、解决实际问题的人。技术门槛已经降到了历史最低。现在需要的,是对痛点的敏感,和对解决方案的执行力。Agent的未来不是取代人类,而是放大每个人的能力。
2026-04-15 22:20:42
1232
原创 【词汇专栏】Graph-RAG:图增强的智能检索
实体类型定义示例person:description: "人物"description: "组织机构"- type: str # 公司/部门/团队description: "技术/产品"- status: str # 在研/上线/废弃# 关系类型定义示例works_for:description: "工作于"develops:description: "开发"description: "属于"description: "依赖于"
2026-04-14 09:03:46
313
原创 【词汇专栏】Agent记忆系统:让AI不再失忆
传统LLM的局限性:LLM的"金鱼记忆"问题对话1: “我叫张三”对话2: “我叫李四”对话3: “你叫什么名字?” → “我叫李四” ❌LLM无法跨对话记住信息原因:LLM的训练数据不含对话历史Agent记忆系统持久化存储能力选择性检索能力经验积累能力知识更新能力的完整解决方案。
2026-04-14 09:02:20
505
原创 【词汇专栏】向量数据库:RAG的弹药库
向量数据库(Vector Database)是一种专门存储和检索高维向量的数据库系统。对比维度传统数据库向量数据库查询语法匹配方式精确匹配语义相似示例AI ≈ 机器学习。
2026-04-14 09:00:22
404
原创 【词汇专栏】具身智能:当AI拥有身体
具身智能(Embodied AI)感知环境(视觉、触觉、听觉等)理解任务和上下文规划行动步骤执行物理操作适应变化和意外的智能系统。简单说,就是有身体的AI。
2026-04-14 08:59:03
888
原创 【词汇专栏】Long Context:长上下文——AI的超长记忆
让AI从"看摘要"到"读全文"支持整本书、代码库、长对话分析2026年主流:128K-2M tokensGemini 2.0达到10M tokens里程碑稀疏注意力:减少无效计算滑动窗口:局部高效计算KV Cache:避免重复计算PagedAttention:显存优化能用短就不用长用检索增强,不要全量上传注意成本和延迟的权衡。
2026-04-14 08:40:39
418
原创 【词汇专栏】扩散模型(Diffusion Model):AI 是怎么“画“出一张图的?
扩散模型(Diffusion Model)是一种通过"逐步加噪再逐步去噪"的过程来学习生成高质量图像的深度学习模型,是 Stable Diffusion、Midjourney 等 AI 绘图工具的底层技术。扩散模型是先"毁掉"再"修复"——通过学习如何从噪声中还原清晰图像,它掌握了从零生成任何图像的能力。这个优雅的逆向思维,让 AI 绘画从实验室走进了每个人的手机。标签#AI术语#扩散模型#AI绘画#DALL·E。
2026-04-13 22:18:58
373
原创 【词汇专栏】AGI vs ANI vs ASI:人工智能的三种“等级“,我们现在在哪里?
ANI(Artificial Narrow Intelligence,弱人工智能):只能完成特定单一任务的 AI,现阶段所有 AI 产品都属于此类AGI(Artificial General Intelligence,通用人工智能):在所有智力任务上达到或超越人类水平的 AI,目前尚未实现ASI(Artificial Superintelligence,超级人工智能):在所有方面远超人类所有能力的 AI,目前仅存在于理论中定义角度描述功能主义能完成人类能完成的所有认知任务学习能力论。
2026-04-13 22:18:10
420
原创 【词汇专栏】MoE(混合专家):为什么 DeepSeek 又快又省钱?
MoE(Mixture of Experts,混合专家)是一种让模型由多个"专家"子网络组成,每次处理任务时只激活其中少数几个最合适的专家,而不是激活所有参数的架构设计。它让模型在拥有超大参数量的同时,保持较低的计算成本。MoE 就是把一个"什么都会的胖子"变成"一群各有专长的专家团队"——总人数(参数量)可以很多,但每次干活只叫几个人,既省钱又专业。这就是 DeepSeek 用十分之一成本媲美 GPT-4 的核心秘密之一。
2026-04-13 22:17:22
411
原创 【词汇专栏】上下文窗口(Context Window):AI 的“工作记忆“有多大?
上下文窗口(Context Window)是大语言模型在单次对话中能"看到"和"处理"的最大文本量,通常以词元(Token)为单位。超出这个范围的内容,模型就无法"感知"——就像它从未存在过一样。上下文窗口就是 AI 的"工作桌面"——桌面越大,能同时处理的材料越多;但超出桌面的东西,AI 就真的"看不见"了。选模型时,上下文窗口是一个关键参数,和智力一样重要。《MoE:为什么 DeepSeek 又快又省钱》标签#AI术语#上下文窗口#词元#大模型#Gemini。
2026-04-13 22:16:29
364
原创 【词汇专栏】 预训练 vs 微调:AI 界最常被混淆的一对概念
预训练(Pre-training):在海量通用数据上从零训练模型,让它获得广泛的语言能力——代价极大,效果极强,一般只有大公司做。微调(Fine-tuning):在已有预训练模型的基础上,用少量专业数据进一步训练,让它在特定领域表现更好——代价较小,是大多数企业和开发者的选择。预训练是"从零造一个天才",微调是"让天才专精你的领域"。两者不是竞争关系,而是接力关系——几乎所有 AI 应用都站在预训练的肩膀上,再用微调精准落地。《上下文窗口:为什么 AI 会"忘事"》标签#AI术语#预训练#微调。
2026-04-13 22:15:14
319
原创 【AI Agent实战手册】AG14:2026年Agent生态全景——从协议到工具的完整地图
MCP让Agent能连接任何工具A2A让Agent之间能互相协作Skills让Agent能快速获得专业能力框架让开发者能高效构建Agent下一波机会,属于找到具体场景、解决实际问题的人。技术门槛已经降到了历史最低。现在需要的,是对痛点的敏感,和对解决方案的执行力。Agent的未来不是取代人类,而是放大每个人的能力。
2026-04-11 21:45:32
358
原创 【AI大模型入门】B10:腾讯混元——腾讯的全栈AI矩阵
📖:约8分钟🎯:微信/QQ/腾讯产品用户,对国产AI感兴趣的人💡:腾讯混元是什么、有哪些产品形态、在腾讯生态里如何使用、和其他国产大模型比如何。
2026-04-11 21:29:25
357
原创 【AI大模型入门】B13:Phi——微软“小钢炮“,用高质量数据颠覆参数神话
📖:约7分钟🎯:对边缘计算/手机AI感兴趣的人、开发者、想了解"小模型哲学"的人💡:Phi系列是什么、为什么小模型能强过大模型、适合什么场景。
2026-04-11 21:28:34
369
原创 【词汇专栏】RLHF:ChatGPT 是怎么学会“听话“的?
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种通过人类评分来训练 AI "按照人类偏好行事"的技术,让模型不只是预测下一个词,还能学会"什么样的回答更受人类认可"。RLHF 是让 AI 从"文字预测机器"变成"有礼貌的助手"的关键——它不改变模型的知识,而是改变模型的"价值观",让它知道什么样的回答才算好。《微调 vs 预训练:傻傻分不清楚?标签#AI术语#RLHF#强化学习#ChatGPT#AI对齐。
2026-04-10 14:26:39
368
原创 【词汇专栏】Agent(智能体):当 AI 开始自己“行动“
Agent(智能体)是指能够感知环境、自主制定计划、调用工具并执行多步骤任务的 AI 系统,而不仅仅是回答一个问题然后停止。Agent 是 AI 从"回答者"到"执行者"的进化——它不只是告诉你怎么做,它会自己去做。这是 AI 真正进入"工作流"的开始,也是未来几年最值得关注的技术方向。《RLHF:ChatGPT 是怎么学会"听话"的》标签#AI术语#Agent#智能体#AutoGPT#Devin#AI应用。
2026-04-10 14:25:41
1111
原创 【词汇专栏】RAG:让 AI 学会“查完资料再说话“
RAG(Retrieval-Augmented Generation,检索增强生成)是一种让大语言模型在生成回答前,先从外部知识库中"查资料"的技术框架,从而减少幻觉、扩展知识边界。RAG 让 AI 从"凭记忆作答"变成"查完资料再说话"——它不是让 AI 变得更聪明,而是让 AI 知道去哪里找答案、怎么用答案。这是目前企业 AI 落地最实用的技术路线。《Agent:当 AI 开始自己行动》标签#AI术语#RAG#检索增强生成#向量数据库#企业AI#LLM应用。
2026-04-10 14:22:58
363
原创 【词汇专栏】幻觉(Hallucination):AI 为什么会一本正经地胡说八道?
幻觉(Hallucination)是指大语言模型生成了看似合理、实则错误或虚构的内容,且模型本身对此毫无"察觉"。幻觉不是 AI 在撒谎,而是 AI 在"自信地猜测"——它被训练成永远给出答案,而不是承认不知道。理解幻觉,是安全使用 AI 的第一步。《RAG:让 AI 学会"查完资料再说话"》标签#AI术语#幻觉#AI安全#大语言模型可信度。
2026-04-10 14:21:43
442
原创 【词汇专栏】词元(Token):大模型的“基本货币单位“
词元(Token)是大语言模型处理文本的最小单位——不是字,不是词,而是介于两者之间的"文本碎片"。词元(Token)是大模型的"货币单位"——你问的每个字、AI 回的每句话,都在被一片片词元计量着。如今这个词已有了官方中文名,理解词元,就是理解大模型如何"读"和"写"的第一步。《幻觉(Hallucination):AI 为什么会一本正经地胡说八道》标签#AI术语#词元#Token#大语言模型#NLP基础。
2026-04-10 14:18:54
960
原创 【AI大模型入门】B09:智谱GLM/ChatGLM——清华系开源大模型,学术界和开发者必知
🎓清华出身:扎实的学术背景,技术有保障🔓坚持开源:国内最早、最持续的开源中文大模型系列💻开发者友好:API文档好、CodeGeeX免费、可本地部署🔬学术影响力:国内NLP研究的常用基础模型🆓低门槛:消费级显卡即可本地运行如果你是学生、研究者、或者喜欢折腾开源AI的开发者,ChatGLM/智谱清言是必须了解的选项。
2026-04-09 15:27:37
597
原创 【AI大模型入门】B08:讯飞星火——科大讯飞的大模型,教育和语音场景的王者
讯飞星火不是最全能的大模型,但它是语音和教育领域的王者🎙️语音技术全国第一:20年积累不是白来的🏫教育场景最深:学生和教师的AI利器🏢行业落地最广:医疗、政务、教育全面覆盖🔌API生态完善:企业集成首选之一📱硬件+软件:AI学习机等独特产品形态如果你是学生、老师,或者需要语音交互能力,讯飞星火值得一试。
2026-04-09 15:26:57
380
原创 【AI大模型入门】B05:LLaMA——Meta的开源大模型,撑起半个AI开源生态
🏆性能顶尖:用更少参数达到顶尖闭源模型水平🔓完全开源:可商用、可修改、可本地运行🌱生态最大:衍生了数百个变体,是开源AI社区的基础🆓完全免费:从模型下载到商业使用,都不需要付费📱覆盖全场景:从手机端到数据中心,都有适合的版本如果你关心AI的未来,LLaMA是你必须了解的名字。本文为【AI大模型百科专栏】第B05篇 · 爆发时代作者:[孤岛站岗] | 更新时间:2026年4月。
2026-04-09 15:26:03
687
原创 向量数据库:AI记忆的秘密仓库
理解向量数据库,先要理解什么是向量(Embedding)。向量数据库解决的问题技术本质语义搜索相似向量检索推荐系统用户/物品向量匹配RAG知识库文档向量+相似度召回图像搜索视觉向量比较人脸识别人脸向量匹配向量数据库是AI时代的基础设施,就像关系型数据库是互联网时代的基础设施。几乎所有真正有用的AI应用,背后都有一个向量数据库在支撑。延伸阅读Chroma官方文档Pinecone文档。
2026-04-09 15:15:49
355
原创 【AI大模型入门】D01:DeepSeek——用1/10成本打出顶尖性能,震惊整个硅谷
🏆顶尖性能:多项测试媲美甚至超越GPT-4 o1💰极低成本:API价格是GPT的1/100甚至更低🔓完全开源:MIT协议,可以免费商用🆓用户免费:官网免费使用,不需要信用卡🧠推理可视:R1的思考链让推理过程透明🇨🇳中国出品:证明了中国在AI顶尖领域的实力无论你对AI感兴趣是出于什么目的,DeepSeek 都是2025年你必须了解的名字。你试过DeepSeek吗?说说你的使用体验 👇本文为【AI大模型百科专栏】第D01篇 · 颠覆时代。
2026-04-09 15:13:58
1230
原创 MCP:AI连接世界的新协议
碎片化和不安全。如果MCP成为行业标准(目前势头很好),它将成为AI时代最重要的基础设施之一——就像HTTP之于互联网,USB之于外设。未来的AI助手,可以通过MCP连接你的邮件、日历、代码库、数据库,真正成为你的全能数字助理。延伸阅读MCP官方文档MCP GitHub官方Server列表。
2026-04-08 20:35:07
564
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅