9命怪猫
码龄21年
求更新 关注
提问 私信
  • 博客:787,452
    社区:16
    787,468
    总访问量
  • 255
    原创
  • 4,922
    排名
  • 1,050
    粉丝
  • 37
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2004-02-19

个人简介:10+年技术团队管理经验,依旧撸码 擅长云计算、大数据;AWS-SAP 热爱数学,粗通算法。

博客简介:

Arthur Guo 的专栏

博客描述:
ArthurGuo的技术记事簿
查看详细资料
个人成就
  • 获得2,057次点赞
  • 内容获得74次评论
  • 获得2,024次收藏
  • 代码片获得2,110次分享
  • 原力等级
    原力等级
    6
    原力分
    1,962
    本月获得
    83
创作历程
  • 74篇
    2025年
  • 47篇
    2024年
  • 20篇
    2023年
  • 13篇
    2022年
  • 10篇
    2021年
  • 14篇
    2020年
  • 17篇
    2019年
  • 4篇
    2018年
  • 30篇
    2017年
  • 13篇
    2016年
  • 27篇
    2015年
成就勋章
TA的专栏
  • AI
    69篇
  • 敏捷开发
    21篇
  • 运维
    15篇
  • 可视化
    3篇
  • 软件测试
    3篇
  • 软件架构
    9篇
  • 职场发展
    10篇
  • 产品经理
    2篇
  • 开发模式
    1篇
  • 软件开发
    1篇
  • 代码覆盖率
    1篇
  • 几何学
    1篇
  • Redis
    2篇
  • 前端
    6篇
  • R
    1篇
  • 安全
    1篇
  • 硬件
    1篇
  • 芯片
    1篇
  • TypeScript
    3篇
  • Python
    20篇
  • Go
    38篇
  • MySQL
    3篇
  • git
    2篇
  • MongoDB
    3篇
  • HTTP
    3篇
  • HA
  • PHP
  • 杂感
    6篇
  • Linux
    5篇
  • BigData
    7篇
  • Selenium
    2篇
  • Django
    1篇
  • Test
    2篇
  • Hadoop
    2篇
  • CI
    1篇
  • CD
    1篇
  • Kubernetes
    13篇
  • 容器
    2篇
  • Docker
    1篇
  • JS
    2篇
  • 云计算
    1篇
  • C
    2篇

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 4

兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络pytorch
创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

76人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

LLM指纹底层技术——注意力机制变体

通过精心设计的探针任务,可以清晰地看到其信息流动的通路是密集的全连接(MHA),还是带有局部窗口(SWA),亦或是分组共享(GQA)。它们通过改变“一个词可以关注哪些其他的词”这一基本规则,直接影响了模型构建上下文依赖关系的方式,从而在生成文本的。不同的注意力机制就像不同类型的思维模式,差异会在模型生成的文本中留下深刻且可识别的印记。这条路径的核心思想是“一个词的含义主要由其邻近的词决定,没必要关注所有词”。不同的效率优化思路,形成了不同的技术路径和独特的指纹。)而发展出的各种修正或近似版本的注意力机制。
原创
博文更新于 11 小时前 ·
435 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

LLM指纹底层技术——模型架构

它不仅能告诉我们一个模型“是谁”,更能告诉我们它“能成为谁”,这对于整个AI生态的评估、规划和治理具有不可估量的价值。这相当于一个人的“骨架结构”,它从根本上决定了模型的潜力上限、行为模式和固有缺陷,是所有其他细粒度指纹(如注意力、位置编码)得以附着的载体。它决定了模型的物种归属(是Transformer、SSM还是其他),设定了其成长的天花板,并赋予了其无法根除的遗传特性。这种由架构设计所带来的、系统性的、可预测的行为模式与能力边界,就是我们所说的“架构指纹”。在“LLM指纹”的语境下,
原创
博文更新于 12 小时前 ·
445 阅读 ·
11 点赞 ·
0 评论 ·
4 收藏

LLM指纹底层技术——特征表示

因此,LLM指纹中的特征提取技术,不仅是一项满足好奇心的学术探索,更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中,能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节,它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹,那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类:分析输出的“产品”,还是分析产生的“过程”。
原创
博文更新于 前天 10:56 ·
565 阅读 ·
19 点赞 ·
0 评论 ·
14 收藏

LLM指纹底层技术——特征提取

因此,LLM指纹中的特征提取技术,不仅是一项满足好奇心的学术探索,更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中,能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节,它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹,那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类:分析输出的“产品”,还是分析产生的“过程”。
原创
博文更新于 前天 10:14 ·
342 阅读 ·
16 点赞 ·
0 评论 ·
5 收藏

LLM指纹底层技术——指令微调

简单来说,预训练模型学会的是“续写”,你给它“中国的首都是”,它能续写出“北京”。指令微调就是通过给模型看大量的“指令-回答”范例,让它学会这种“一问一答”或“遵循命令”的交互模式。我们评价一个模型是“乐于助人”、“死板教条”还是“油嘴滑舌”,很大程度上就是在描述其指令微调阶段所形成的印记。如果说预训练是为大模型注入了灵魂(知识),那么指令微调就是用一把精密的刻刀,雕琢出了这个灵魂与外界交互的“面孔”和“性格”。“LLM指纹”体系中,有个核心环节负责塑造模型“行为模式”和“可沟通性”——
原创
博文更新于 2025.07.14 ·
344 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

LLM指纹底层技术——记忆与过拟合

它像一个幽灵,潜伏在庞大的模型参数之中,时刻提醒我们,强大的能力背后,是同样巨大的责任与风险。问题在于,我们无法精确控制模型记忆的边界,它在记住事实的同时,也记住了不该记住的隐私和噪声。利用记忆作为指纹的技术路径,本质上是一种被称为**“数据抽取攻击 (Data Extraction Attack)”** 的法医学过程。,因为这些被逐字记住的、独特的、可被精确触发的文本序列,构成了模型最明确、最无可辩驳的“身份证明”。这不仅是模型训练中的技术难题,更是直接关系到隐私、安全和版权的、最不容忽视的指纹来源。
原创
博文更新于 2025.07.14 ·
562 阅读 ·
11 点赞 ·
0 评论 ·
16 收藏

LLM指纹底层技术——位置编码

例如,对于注意力机制来说,“人咬狗”和“狗咬人”这两个句子,如果不加入位置信息,词向量本身是完全一样的,模型将无法区分其天差地别的含义。通过精心设计的“压力测试”,例如操纵输入文本的长度、结构和顺序依赖性,就可以像地质学家探测地层一样,探测出模型所使用的位置编码类型,从而揭示其架构的“秘密”之一。因此,位置编码的本质工作就是为输入序列中的每一个Token(词或子词)附加一个独特的、代表其在序列中绝对或相对位置的数学“标签”,让模型能够理解“谁在谁前面,谁在谁后面”。第n个)分配一个固定的、唯一的向量。
原创
博文更新于 2025.07.08 ·
817 阅读 ·
11 点赞 ·
0 评论 ·
11 收藏

LLM指纹底层技术——注意力机制变体

这些变体通过改变注意力分数的计算方式、修改Query/Key/Value的组织结构,或引入稀疏性假设,从而在效率和模型表现之间做出不同的权衡。正是这些在架构和算法上做出的、充满权衡与妥协的决策,共同塑造了一个大模型独一无二、难以伪造的“数字灵魂”——也就是我们所说的LLM指纹。它的输出将同时带有这三种技术的烙印:对相对位置敏感、在精细任务上可能略显粗糙、且无法处理超出窗口的远距离依赖。需要强调的是,一个大模型的最终指纹是多种技术选择叠加的结果。——而设计的各种经过修改的注意力结构。
原创
博文更新于 2025.07.08 ·
803 阅读 ·
17 点赞 ·
0 评论 ·
13 收藏

浅析LLM指纹如何形成

因此,要识别ChatGPT的指纹,专家会设计一套复杂的探测方案,通过测试其长文本理解力、安全边界、知识交叉能力、回答风格一致性,并进行统计分析,从而极高精度地判断一段文本是否“师出ChatGPT”。ChatGPT的指纹并非单一技术,而是其整个技术栈——从模型架构到推理部署——多层技术细节叠加后产生的综合性、系统性的外部表现。同样受解码参数影响,但由于模型能力更强,即使在相同参数下,输出的质量和深度也远超3.5,这本身就是最强的“能力指纹”。其RLHF基于更强的基础模型,安全边界更难被突破,回答更细致周全。
原创
博文更新于 2025.07.07 ·
698 阅读 ·
19 点赞 ·
0 评论 ·
17 收藏

技术、产品双维度看LLM指纹

大模型指纹(LLM Fingerprint)是一种或一组可稳定复现的、独特的、能代表特定大模型内在属性的输出特征。就像人类的指纹一样,这种特征可以用来高精度地识别、验证或追踪一个特定的、甚至未知的模型。简单来说,如果猫哥向10个不同的聊天机器人问同一个“刁钻”的问题,它们各自的回答风格、用词、知识盲点、甚至“胡说八道”的方式,都会有所不同。这些差异化的、可被捕捉和分析的特征,就是它们的“指纹”。技术角度:指纹从何而来?大模型的指纹并非单一来源,而是其复杂系统在多个层面留下的综合印记。
原创
博文更新于 2025.07.07 ·
682 阅读 ·
27 点赞 ·
0 评论 ·
19 收藏

AI大模型底层技术——Scaling Law

Scaling Law 是我们目前拥有的、用于导航大型模型开发广阔前景的最可靠地图。它们不是教条,而是强有力的指导原则,随着领域不断推动规模、效率和能力的边界,这些原则也在不断被完善、挑战和扩展。对于任何严肃参与构建或战略部署大规模 AI 的人来说,理解其细微差别至关重要。是描述 AI 模型性能随关键因素(如参数量、数据量、计算量)增长而变化的数学规律,通常表现为幂律关系。
原创
博文更新于 2025.04.08 ·
801 阅读 ·
16 点赞 ·
0 评论 ·
10 收藏

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

笔者尝试对比了“关于推理时Scaling”与现有技术,粗浅分析如下:
原创
博文更新于 2025.04.08 ·
760 阅读 ·
16 点赞 ·
0 评论 ·
13 收藏

DeepSeek底层揭秘——《推理时Scaling方法》内容理解

DeepSeek与清华大学联合发布的论文《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》,核心在于提出一种新的推理时Scaling方法,即通过动态调整奖励机制,而非改变模型参数,来提升大规模语言模型(LLM)的推理能力。这种方法突破了传统依赖强化学习(RL)在训练阶段优化模型性能的局限,为LLM推理能力的提升提供了全新方法论。论文中的"Scaling"主要指推理计算资源的扩展,而非模型大小(参数量)或数据规模的扩展。
原创
博文更新于 2025.04.07 ·
962 阅读 ·
13 点赞 ·
0 评论 ·
6 收藏

AI大模型底层技术——结合 Prompt Engineering 的 LoRA

"结合 Prompt Engineering 的 LoRA" 指的是将 Prompt Engineering (提示工程) 技术与 LoRA (Low-Rank Adaptation) 微调技术相结合,以更高效、更灵活地引导 AI 大模型完成特定任务的方法。Prompt Engineering 负责设计有效的提示语 (Prompts),而 LoRA 负责在冻结大部分模型参数的情况下,微调少量参数以适应特定任务。
原创
博文更新于 2025.04.07 ·
751 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

AI大模型底层技术——Adaptive Rank Allocation

"Adaptive Rank Allocation" 指的是一种在 LoRA (Low-Rank Adaptation) 微调过程中,根据模型不同层或模块的重要性,自适应地分配 LoRA 秩 (Rank) 的技术。传统的 LoRA 方法通常为所有层或模块设置相同的秩,而 "Adaptive Rank Allocation" 则允许不同的层或模块拥有不同的秩,从而更有效地利用参数,提高微调性能。
原创
博文更新于 2025.03.29 ·
825 阅读 ·
19 点赞 ·
0 评论 ·
21 收藏

AI大模型底层技术——Multi-LoRA Combination Methods

"Multi-LoRA Combination Methods" 指的是在 LoRA (Low-Rank Adaptation) 微调的基础上,使用多个 LoRA 模块,并通过特定的方法将它们组合起来,以适应多任务学习、领域自适应或模型个性化等场景的技术。与传统的 LoRA 方法只使用单个 LoRA 模块不同,"Multi-LoRA Combination Methods" 能够利用多个 LoRA 模块的优势,实现更灵活、更强大的模型微调。
原创
博文更新于 2025.03.29 ·
875 阅读 ·
15 点赞 ·
0 评论 ·
15 收藏

AI大模型底层技术——LoRA for Vision Transformer (ViT)

"LoRA for Vision Transformer (ViT)" 指的是将 LoRA (Low-Rank Adaptation) 技术应用于 Vision Transformer (ViT) 模型,以实现参数高效的微调。ViT 模型在图像识别领域取得了显著的成果,但其庞大的参数量使得全参数微调成本高昂。LoRA 提供了一种解决方案,通过只训练少量参数,即可使 ViT 模型适应新的图像任务,同时保持较高的性能。
原创
博文更新于 2025.03.29 ·
1069 阅读 ·
18 点赞 ·
0 评论 ·
12 收藏

AI大模型底层技术——DyLoRA

DyLoRA (Dynamic Low-Rank Adaptation) 是一种在 LoRA (Low-Rank Adaptation) 基础上发展起来的动态参数微调技术。与 LoRA 采用固定的低秩矩阵不同,DyLoRA 允许 LoRA 模块的秩 (rank)根据输入动态变化。这种动态调整机制使得模型能够根据输入样本的复杂度和重要性,自适应地分配计算资源,从而在保持性能的同时,进一步提升效率和灵活性。
原创
博文更新于 2025.03.29 ·
861 阅读 ·
31 点赞 ·
0 评论 ·
22 收藏

AI大模型底层技术——QLoRA微调

是在 LoRA (Low-Rank Adaptation) 基础上发展起来的一种更高效的参数微调技术,尤其适用于资源极度受限的场景。它在保持 LoRA 优点的同时,进一步通过量化 (Quantization)技术压缩预训练模型,显著降低了内存占用,使得即使在消费级硬件上也能微调大型模型。
原创
博文更新于 2025.03.27 ·
638 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

AI大模型底层技术——LoRA微调

是一种针对大型预训练语言模型 (LLMs) 的高效微调技术。它旨在解决全参数微调所带来的计算和存储成本问题。冻结预训练模型的原始参数,并通过引入少量可训练的低秩矩阵来模拟参数更新。这样,在微调过程中,只需要优化这些低秩矩阵的参数,而不需要修改原始模型的参数,从而大大减少了需要训练的参数量。
原创
博文更新于 2025.03.27 ·
2005 阅读 ·
45 点赞 ·
0 评论 ·
16 收藏
加载更多