- 博客(303)
- 收藏
- 关注
原创 公司内部网络计费参考
在动手建系统之前,先要明确计费是为了"看看"(成本洞察,成本可视化)还是"扣钱"(内部结算,真金白银内部结算)。源 IP: 10.32.45.67, 目的 IP: 151.101.x.x, 字节数: 1.2GB, 时间: 14:23。→ DHCP 日志 → MAC: aa:bb:cc:dd:ee:ff, 租约用户: zhangsan。2024-05, 数字营销部, 互联网出口流量, 1.2GB, 成本分摊: ¥0.8。将计费系统扩展为"全 IT 成本分摊平台"(含云、终端、软件许可),摊薄边际成本。
2026-05-15 13:38:33
380
原创 [K8S小白问题集] - pod里既然有pause容器可以负责网络通信,为什么还要有sidecar?
Pause 容器是 Pod 的“地基”,它创建了共享的命名空间,让多个容器能在同一个“房间”里工作;:日志审计、国密卸载、流量加密、监控埋点,这些辅助功能通过 sidecar 与核心业务解耦,既满足了等保/信创要求,又避免了对核心交易代码的侵入式改造。# 执行 iptables -t nat -A PREROUTING -p tcp -j REDIRECT --to-ports 15001。:如果没有 pause 容器,每个业务容器启动时都会创建独立的 netns,它们之间就无法直接。
2026-05-14 07:19:15
399
原创 [K8S小白问题集] - Calico好在哪里?
Pod A ──► veth ──► cni0 ──► flannel.1(VTEP) ──► VXLAN封装 ──► eth0。──► 底层网络 ──► eth0 ──► VXLAN解封装 ──► flannel.1 ──► cni0 ──► Pod B。──► 底层网络(物理路由器已学习Pod CIDR路由)──► eth0 ──► 路由表 ──► veth ──► Pod B。Pod A ──► veth ──► 路由表(10.244.2.3 via Node2_IP) ──► eth0。
2026-05-14 07:16:48
410
原创 [K8S小白问题集] - Flannel是K8S默认CNI吗?怎么实现的Overlay网络?
Flannel 的设计哲学是“最小可用”——它只做一件事:为每个节点分配一个 Pod 子网段,并确保跨节点的 Pod IP 可路由。f2:xx:xx:xx:xx:02 → VTEP IP = Node2_Physical_IP (如 192.168.1.12)查 ARP 表:10.244.2.0 → f2:xx:xx:xx:xx:02 (Node2 flannel.1 的 MAC)每个节点上的守护进程,监听 etcd/K8s API 获取集群子网分配,配置本地路由、ARP、FDB、VXLAN 设备。
2026-05-13 10:04:36
367
原创 [K8S小白问题集] - K8S里的Secret是什么?
虽然 1.24+ 默认使用 TokenRequest 投影(短期 Token),但传统 Secret 形式的 SA Token 曾是 Pod 访问 APIServer 的“通行证”。base64 的目的是“让二进制数据安全地穿越 JSON/YAML 文本协议”,而不是“防止人类读取”。银行生产环境中,信封里的内容必须被加密,钥匙必须放在 HSM 里,信封的开启必须被审计。etcd 是集群的“大脑”,一旦攻击者突破 Master 节点或 etcd 节点,所有 Secret 一览无余。
2026-05-13 10:00:26
462
原创 [K8S小白问题集] - APIServer接受到的API调用都是什么样的?与http请求的API差别很大吗?
APIServer 的 API 在协议层面就是 HTTP/JSON(或 Protobuf),但在语义层面是"面向终态的、版本化的、事件驱动的、带内置安检链的分布式资源控制系统"。它与普通 HTTP API 的关系,类似于**"SQL 与 Excel 都是表格"**——表面都是行列数据,但底层哲学和适用域完全不同。"requestObject": { ... }, // 请求体(敏感资源可能省略)从协议底层看,它接收的仍然是标准的 HTTP/1.1 或 HTTP/2 请求,但。
2026-05-13 09:55:35
541
原创 [K8S小白问题集] - runtime是不是类似Ghost装机后OS的运行
lowerdir=/var/lib/containerd/.../layer1:/var/lib/containerd/.../layer2 (镜像层,只读)这个引擎比操作系统轻量得多——启动一个容器不是"开机",而是**"执行一个系统调用序列,让普通进程换一套视图继续跑"**,耗时以毫秒计。它更像是一个**"借用宿主机内核,为单个应用进程快速搭建隔离环境"的启动器**。—— 这里对方可能会误以为容器里有完整操作系统,需要补一句:"但它没有自己的内核,用的是宿主机的内核,只是被隔离了。
2026-05-12 02:16:00
361
原创 [K8S小白问题集] - K8S为什么选择etcd而不是别的key-value DB?比如Redis
定位是服务发现 + KV,Raft 实现正确但 KV 层是附加功能,Watch 机制(Blocking Queries)基于索引但不如 etcd 的 revision 模型精确,且非 K8S 原生集成。:Controller 需要可靠的事件流。分布式 KV(TiDB 底层),强一致但架构重(PD + TiKV 多节点),延迟高于 etcd,且设计目标是海量数据存储而非 K8S 的"小数据 + 高并发 Watch"。:集群状态是 K8S 的"黄金数据",丢失 etcd 数据等于丢失整个集群的"大脑"。
2026-05-12 01:58:49
1065
1
原创 ACP科普:什么是挣值(Earned Value)
"EV 算的不是你花了什么,而是你挣了多少。但'挣多少'的标尺——那个预算——必须是项目的全部成本,否则你就是在用一把短尺量长布。它不是实际花了多少钱(那是 AC,Actual Cost),而是"你挣到了多少价值"。Earned Value(挣值,EV)是项目管理中最强大的绩效测量工具之一。它问的是:"我完成了 50% 的工作,按原计划这 50% 应该值多少钱?如果你的项目有显著的原材料、设备或外包投入,只算人力做 EV 分析,EV = 实际完成百分比 × 该工作的预算(BAC或PV)
2026-05-04 08:53:21
195
原创 大模型剪枝系列——基于敏感度的剪枝
基于敏感度的剪枝早已不是停留在论文中的理论,而是支撑着每天数十亿次AI推理请求背后,降本增效的工程支柱。它将继续作为连接庞大模型与现实应用之间的关键桥梁,发挥其不可替代的作用。为了让您更清晰地把握该领域的技术脉络,我将对比几代具有里程碑意义的SOTA(State-of-the-Art)方法,这正是我在内部思考时构建的技术演进图。以下是我在思考过程中梳理的、更能体现敏感度剪枝在工业界落地应用的具体案例,补充了实施细节。“基于敏感度”的剪枝从系统工程的角度出发,评估移除某个。TensorRT 分析器。
2025-09-25 14:08:13
1173
原创 大模型剪枝系列——基于权重大小剪枝
性价比非常高,它用最简单的思想、最低的计算成本,解决了模型压缩这个核心问题中最普遍的部分。尽管它存在理论上的局限性,但在工程实践中,经过迭代微调、正则化以及与激活信息结合等方式的“魔改”后,它依然宝刀不老。尽管从理论上看,梯度剪枝似乎更为“深刻”,但基于权重大小的剪枝凭借其无可比拟的。)探讨了基于梯度的剪枝方法。现在,不妨回归本源,剖析剪枝领域中。基于权重大小的剪枝几乎是所有模型压缩任务的**“第一站”**。,成为了几乎所有模型压缩流程的起点和基石。当前最被广泛认可和使用的高效路径,正是。
2025-09-25 13:45:57
1417
原创 大模型剪枝系列——基于梯度的剪枝
与简单地看权重“大小”的幅值剪枝不同,基于梯度的剪枝试图回答一个更根本的问题:“这个参数对模型的学习和优化过程有多重要?” 它关注的是参数的。它虽然实现起来更为复杂,成本也更高,但它所带来的高精度和对模型动态的深刻洞察。前作简单讲了“大模型剪枝”的常见分类,接下来将分几篇文字深入剖析“大模型剪枝”领域中几种技术流派,这次先讲最常见的——梯度本身是一个瞬时值,直接使用它充满噪声。这使得它在理论上更为优雅,在实践中也往往能达到更好的效果,尤其是在高稀疏度场景下。这是目前最主流的方法,如著名的。
2025-09-24 18:54:04
956
原创 大模型剪枝系列——非结构化剪枝、结构化剪枝、动态结构化剪枝
这三者代表了模型“瘦身”艺术从“粗放雕琢”到“精细手术”再到“自适应变形”的演进路径。| 相对简单 (基于幅值) | 较复杂 (需评估结构重要性) | 非常复杂 (需训练路由/门控网络) || | 结构化剪枝是动态剪枝的基础,动态剪枝是一种特殊的、运行时的结构化剪枝。| 可达极高稀疏度 (90%+) | 压缩率通常适中 (30%-70%) | 不减少存储,只降低。未来的模型优化将不再是单一技术的胜利,而是三者的融合。| 单个权重 | 整个结构 (通道/头/层) | 推理路径上的结构 |
2025-09-24 18:45:09
2129
1
原创 大模型剪枝系列——LoRA-Pruning
例如,Anthropic在其技术报告中曾提到,采用类似的适配器优化技术后,其客服模型集群的GPU利用率提升了47%,年度计算成本降低了约870万美元。它在微调的“用进废退”过程中,动态识别并淘汰LoRA适配器中贡献不大的部分,最终得到一个更小、更稀疏、更高效的适配器。从前文字中,猫哥提到过LoRA微调,接下来将开一个系列浅析“大模型剪枝”领域中一个非常前沿且极具应用价值的技术分支——LoRA-Pruning的价值在于其“一石二鸟”的特性,特别适用于资源受限和需要高度定制化的场景。
2025-09-23 20:47:02
993
原创 大模型剪枝系列——浅析蒸馏与剪枝
这两种技术的目标一致——让庞大、昂贵的大模型变得更小、更快、更便宜,从而能够实际部署到手机、汽车乃至物联网设备等各种场景中。,是大模型从“云端”走向“大众”的左膀右臂。蒸馏传递的是“智慧的灵魂”,而剪枝剔除的是“冗余的肉体”。先通过剪枝移除大量参数,再通过蒸馏让模型在更小的尺寸下恢复智能,最后通过量化将权重用更低的精度表示,从而实现极致的压缩。这个过程不仅仅是让学生模型学习教师模型的最终答案,更关键的是学习教师模型“思考的过程”。,得到一个更高效的版本,然后将这个剪枝后的模型作为。
2025-09-23 20:39:53
1079
原创 K8S中GPU资源请求与限制
nvidia.com/mig-1g.5gb: "1" # 精确请求一个 1g.5gb 规格的 MIG 实例。aliyun.com/gpu-mem: "4" # 请求 4GiB 的显存配额和相应的算力时间片。nvidia.com/gpu: "1" # < 请求 1 个 GPU。下面我们看看在不同的技术方案下,nvidia.com/gpu: "1" # < 限制也必须是 1。nvidia.com/mig-1g.5gb: "1" # 必须相等。aliyun.com/gpu-mem: "4" # 同样必须相等。
2025-08-05 11:15:13
1515
1
原创 K8S调度管理GPU资源
随着生态的成熟,它将最终取代现有的 Device Plugin 模型,为包括 GPU 在内的所有复杂异构资源提供更强大、更灵活的管理框架。这是 Kubernetes 社区和硬件厂商正在大力推进的最新架构,旨在解决 Device Plugin 模型的根本性局限。为了解决资源浪费问题,业界演进出了两条主流技术路线:软件层的时间片共享和硬件层的物理分区。Kubernetes 的 GPU 管理架构就是为了解决这三大挑战而不断演进的。这是 Kubernetes GPU 管理的基石,也是理解一切后续技术的前提。
2025-08-05 11:14:52
1473
原创 Headless与Kube-proxy、CoreDNS、Endpoint
插件会持续 watch Kubernetes API 中的 Service 和 Endpoints/EndpointSlice 对象。如果 Headless Service 与 StatefulSet 配合,CoreDNS 还会为每个 Pod 创建一个唯一的、稳定的 DNS 子域名,例如。CoreDNS 与 Headless Service 的协作是服务发现的核心。对象正是连接逻辑服务与物理实例的桥梁,也是 Headless Service 的。的角色,提供了一份可直接访问的“Pod 名册”。
2025-08-04 09:01:42
1073
原创 K8S中的Headless Service
如数据库集群 (MySQL, Cassandra)、消息队列 (Kafka)、Zookeeper 集群等,客户端需要与特定的成员(如主节点、某个分区 Leader)进行通信。等)来找到它的同伴,从而成功组成集群。这个 Service 的目的是为 Zookeeper 的 Pod 提供 DNS 记录,以便它们可以相互发现。客户端连接的是一个虚拟 IP,完全不知道、也不关心后端具体是哪个 Pod 在处理请求。:Headless Service(无头服务)是一种特殊的 Service,它。
2025-08-04 09:00:31
1074
原创 K8S服务发现原理及开发框架的配合
将网络层和服务治理的通用能力(服务发现、负载均衡、路由、熔断、限流)下沉到 Kubernetes 和服务网格,让 Java 应用更专注于业务逻辑。它将服务发现的责任从客户端(如 Spring Cloud 的 Ribbon/LoadBalancer)下沉到了 Kubernetes 平台层,对应用完全透明。:将熔断下沉到 Service Mesh (Envoy),对应用透明,支持多语言,集中管理。:在入口 (Ingress) 或服务间 (Mesh) 进行限流,保护整个服务。spec.replicas 字段。
2025-08-03 14:04:57
1032
原创 K8S几种常见CNI深入比较
以下在技术层面上对 Kubernetes 中的五种 CNI 插件进行深入比较:Flannel、Calico、kube-router、Weave Net 和 Cilium。kube-router DaemonSet 进程。依赖 kube-proxy。依赖 kube-proxy。✅ (eBPF 替代)高性能路由,强大策略。
2025-08-03 11:16:09
1394
原创 LLM指纹底层技术——稀疏激活
是一种源自特定模型架构(主要是混合专家模型,Mixture-of-Experts, MoE)的、深刻的、行为级的指纹。如果说传统的密集模型(Dense Model)在思考时是“全脑激活”,那么MoE模型则是“分区域、专业化思考”。这种独特的“思考模式”本身,就为我们提供了一种极其新颖和难以伪造的指纹来源。探测这种指纹需要更巧妙的“侦察”手段,主要分为白盒(可访问内部状态)和黑盒(仅API访问)两种路径。是LLM指纹体系中一个极其深刻和丰富的来源,它是**“笔迹”或“思维习惯”**的差异。
2025-07-24 11:06:04
1095
原创 LLM指纹底层技术——混合专家模型
它从根本上改变了模型的“思考”方式,从一个“通才”大脑,演变为一个由众多“专才”协作的智囊团。这种架构上的根本性变革,使其在性能、效率和行为模式上都留下了深刻、独特且难以磨灭的印记,成为了一种极其强大的“架构级指纹”。而深入到像MoE这样的架构层面的指纹,才是未来进行模型溯源、知识产权保护和确保AI生态系统透明、可信的坚实基础。在处理每个输入时,一个。下面讲一下当前大模型领域最炙手可热的架构之一,也是“LLM指纹”体系中一个极其丰富的、多维度的信号来源——,来对一个黑盒或灰盒模型进行深刻的“架构级”鉴定。
2025-07-23 19:07:33
930
原创 LLM指纹底层技术——模型压缩与优化
它是一个覆盖模型从“设计图纸”到“流水线生产”再到“日常运行”全生命周期的系统性工程。几乎每一个压缩或优化的决策,都会像基因突变一样,在模型的行为、结构和效率上打下深刻且独特的烙印,最终共同塑造了模型的终极指纹。是LLM从实验室走向现实世界的必由之路,而这条路上做出的每一个工程决策,都源于开发者对效率、成本、性能三者之间平衡的独特“哲学”。它是整个“LLM指纹”体系中,最深刻、最全面,也最接近模型本质的身份证明。“模型压缩与优化”是RLHF、解码策略、CKA等“指纹来源的”在“LLM指纹”的语境下,
2025-07-23 18:55:54
680
原创 LLM指纹底层技术——噪声鲁棒性机制
噪声鲁棒性机制,是确保这套指纹系统能真正走向“犯罪现场”,在各种干扰、伪装甚至主动攻击下,依然能稳定、可靠地识别出“嫌疑人”的关键。它衡量的是指纹技术的**“抗干扰能力”是将LLM指纹技术从一个脆弱的、只能在理想条件下工作的“玻璃大炮”,锻造成一个能在真实、复杂、充满对抗的环境中稳定发挥作用的“全天候装甲”的必经之路。一个鲁棒的指纹系统,必须能够“看穿”这些表面的迷雾,抓住模型内在的、难以磨灭的本质特征。实现鲁棒性通常是多条路径协同作用的结果,贯穿指纹系统的设计、训练和部署全过程。
2025-07-20 15:17:22
1168
原创 LLM指纹底层技术——KV缓存压缩
首先,要明白KV缓存是什么。在Transformer架构的自回归生成(解码)过程中,模型每生成一个新词,都需要用到前面所有词的Key (K)和Value (V)向量来进行注意力计算。为了避免每一步都重复计算所有历史词的K和V,系统会将它们存储在一个KV缓存中。但随着生成序列变长(例如,处理一篇长文档),这个缓存会变得异常庞大,消耗巨量显存,成为推理性能的主要瓶颈。KV缓存压缩,正是在此背景下诞生的一项优化技术。它指的是在LLM推理过程中,应用各种有损或无损的算法,来。
2025-07-20 15:17:01
1126
原创 LLM指纹底层技术——中心核对齐相似度
中心核对齐相似度 (Centered Kernel Alignment, CKA)是一种用于量化两组高维向量表示(representations)之间结构相似性的统计方法。在LLM指纹的语境下,它被用来精确测量两个模型(或两个层)在处理同一批输入数据时,其内部神经激活模式 (Neural Activation Patterns)的相似程度。核心思想与价值:传统指纹技术(如文本风格、Logits分布)关注的是模型“说什么”,而CKA关注的是模型“如何思考”。
2025-07-19 08:47:58
1362
原创 LLM指纹底层技术——哈希函数编码
在需要处理海量信息、争分夺秒的真实世界应用中,这种化繁为简、直击要害的能力,使其成为LLM指纹技术栈中不可或缺的、极具实用价值的一环。,将从LLM生成内容中提取的、高维离散的原始特征(如n-grams文本片段、稀疏的词汇特征),直接映射成一个固定长度的、紧凑的**数字指纹(通常是整数向量或位数组)**的过程。“LLM指纹”技术栈中,“编码向量生成”利用一个复杂的、经过学习的神经网络(如Transformer编码器)来生成一个信息密集的“法证级”指纹,哈希函数编码则是一种。在“LLM指纹”的语境下,
2025-07-19 08:45:32
668
原创 LLM指纹底层技术——编码向量生成
它将前面所有环节提取的、各种形态(数值、文本、概率分布)的原始特征,通过一个高度浓缩的编码过程,最终生成一个固定维度的、信息密集的。,将一个或多个从LLM生成内容中提取的原始特征(如Logits序列、注意力图、文本自身),映射到一个低维、稠密的数学向量空间中,从而产生一个能唯一标识该LLM身份的向量的过程。正是通过编码向量生成,这些数据才被赋予了可度量的、可操作的、有意义的身份内涵,从而让大规模、自动化的模型溯源成为可能。这个向量就是模型最终的、可量化、可比较的“数字身份证”。在“LLM指纹”的语境下,
2025-07-18 08:15:50
1213
原创 LLM指纹底层技术——推理与解码策略
模型本身的工作只是预测“下一个词是‘的’的概率是50%,是‘地’的概率是30%,是‘得’的...”,它给出的一个概率列表。不同的决策机制会导致模型的输出风格迥异——是从规矩的“标准答案”到天马行空的“创意写作”,这些风格上的系统性差异,就构成了“解码指纹”。这些策略控制着模型输出的**“创造性”与“确定性”**之间的平衡。同时,像水印这样的主动技术,则像是在产品出厂前盖上的一个无法磨灭的“序列号”。这些设置共同塑造了模型的最终“气质”,成为我们在与AI的每一次互动中,都能直观感受到的、最表层的身份印记。
2025-07-18 08:06:46
979
原创 LLM指纹底层技术——训练过程与对齐技术
它就像物理世界中的万有引力定律,设定了所有模型都必须遵循的基本规则。一个模型的规模和层数,不仅决定了它能学到多少知识,更从根本上划定了其处理复杂问题的能力上限,是其最基础、最难以伪造的宏观指紋。在识别一个模型的指纹时,对其规模级别的判断是第一位的。这决定了我们对它后续所有行为和能力表现的预期基准,也是理解其在AI世界中所处生态位的最根本依据。,从而在模型的推理能力、事实准确性和复杂指令遵循能力上,留下清晰可辨的指纹。这四个要素相互关联,共同定义了一个模型的宏观规模,并最终体现在其能力指纹上。
2025-07-17 15:03:44
558
原创 LLM指纹底层技术——模型规模与层数
它就像物理世界中的万有引力定律,设定了所有模型都必须遵循的基本规则。一个模型的规模和层数,不仅决定了它能学到多少知识,更从根本上划定了其处理复杂问题的能力上限,是其最基础、最难以伪造的宏观指紋。在识别一个模型的指纹时,对其规模级别的判断是第一位的。这决定了我们对它后续所有行为和能力表现的预期基准,也是理解其在AI世界中所处生态位的最根本依据。,从而在模型的推理能力、事实准确性和复杂指令遵循能力上,留下清晰可辨的指纹。这四个要素相互关联,共同定义了一个模型的宏观规模,并最终体现在其能力指纹上。
2025-07-17 10:58:13
1311
原创 LLM指纹底层技术——人类反馈强化学习
通过精心设计的探针任务,可以清晰地看到其信息流动的通路是密集的全连接(MHA),还是带有局部窗口(SWA),亦或是分组共享(GQA)。它们通过改变“一个词可以关注哪些其他的词”这一基本规则,直接影响了模型构建上下文依赖关系的方式,从而在生成文本的。不同的注意力机制就像不同类型的思维模式,差异会在模型生成的文本中留下深刻且可识别的印记。这条路径的核心思想是“一个词的含义主要由其邻近的词决定,没必要关注所有词”。不同的效率优化思路,形成了不同的技术路径和独特的指纹。)而发展出的各种修正或近似版本的注意力机制。
2025-07-16 20:27:43
993
原创 LLM指纹底层技术——模型架构
它不仅能告诉我们一个模型“是谁”,更能告诉我们它“能成为谁”,这对于整个AI生态的评估、规划和治理具有不可估量的价值。这相当于一个人的“骨架结构”,它从根本上决定了模型的潜力上限、行为模式和固有缺陷,是所有其他细粒度指纹(如注意力、位置编码)得以附着的载体。它决定了模型的物种归属(是Transformer、SSM还是其他),设定了其成长的天花板,并赋予了其无法根除的遗传特性。这种由架构设计所带来的、系统性的、可预测的行为模式与能力边界,就是我们所说的“架构指纹”。在“LLM指纹”的语境下,
2025-07-16 19:24:23
1005
原创 LLM指纹底层技术——特征表示
因此,LLM指纹中的特征提取技术,不仅是一项满足好奇心的学术探索,更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中,能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节,它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹,那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类:分析输出的“产品”,还是分析产生的“过程”。
2025-07-15 10:22:41
1007
原创 LLM指纹底层技术——特征提取
因此,LLM指纹中的特征提取技术,不仅是一项满足好奇心的学术探索,更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中,能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节,它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹,那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类:分析输出的“产品”,还是分析产生的“过程”。
2025-07-15 10:12:34
937
原创 LLM指纹底层技术——指令微调
简单来说,预训练模型学会的是“续写”,你给它“中国的首都是”,它能续写出“北京”。指令微调就是通过给模型看大量的“指令-回答”范例,让它学会这种“一问一答”或“遵循命令”的交互模式。我们评价一个模型是“乐于助人”、“死板教条”还是“油嘴滑舌”,很大程度上就是在描述其指令微调阶段所形成的印记。如果说预训练是为大模型注入了灵魂(知识),那么指令微调就是用一把精密的刻刀,雕琢出了这个灵魂与外界交互的“面孔”和“性格”。“LLM指纹”体系中,有个核心环节负责塑造模型“行为模式”和“可沟通性”——
2025-07-14 18:53:35
610
原创 LLM指纹底层技术——记忆与过拟合
它像一个幽灵,潜伏在庞大的模型参数之中,时刻提醒我们,强大的能力背后,是同样巨大的责任与风险。问题在于,我们无法精确控制模型记忆的边界,它在记住事实的同时,也记住了不该记住的隐私和噪声。利用记忆作为指纹的技术路径,本质上是一种被称为**“数据抽取攻击 (Data Extraction Attack)”** 的法医学过程。,因为这些被逐字记住的、独特的、可被精确触发的文本序列,构成了模型最明确、最无可辩驳的“身份证明”。这不仅是模型训练中的技术难题,更是直接关系到隐私、安全和版权的、最不容忽视的指纹来源。
2025-07-14 18:47:47
992
原创 LLM指纹底层技术——位置编码
例如,对于注意力机制来说,“人咬狗”和“狗咬人”这两个句子,如果不加入位置信息,词向量本身是完全一样的,模型将无法区分其天差地别的含义。通过精心设计的“压力测试”,例如操纵输入文本的长度、结构和顺序依赖性,就可以像地质学家探测地层一样,探测出模型所使用的位置编码类型,从而揭示其架构的“秘密”之一。因此,位置编码的本质工作就是为输入序列中的每一个Token(词或子词)附加一个独特的、代表其在序列中绝对或相对位置的数学“标签”,让模型能够理解“谁在谁前面,谁在谁后面”。第n个)分配一个固定的、唯一的向量。
2025-07-08 08:28:32
1023
原创 LLM指纹底层技术——注意力机制变体
这些变体通过改变注意力分数的计算方式、修改Query/Key/Value的组织结构,或引入稀疏性假设,从而在效率和模型表现之间做出不同的权衡。正是这些在架构和算法上做出的、充满权衡与妥协的决策,共同塑造了一个大模型独一无二、难以伪造的“数字灵魂”——也就是我们所说的LLM指纹。它的输出将同时带有这三种技术的烙印:对相对位置敏感、在精细任务上可能略显粗糙、且无法处理超出窗口的远距离依赖。需要强调的是,一个大模型的最终指纹是多种技术选择叠加的结果。——而设计的各种经过修改的注意力结构。
2025-07-08 08:22:14
1034
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅