- 博客(1681)
- 资源 (4006)
- 收藏
- 关注
原创 1000道算法工程师面试题(大模型)—— 第一部分
Python 中的 GIL(全局解释器锁)限制了多线程在 CPU 密集型任务中的并行效果,但对 IO 密集型任务影响较小。为应对 GIL 限制,可采用多进程、C 扩展或无 GIL 解释器。多进程适合 CPU 密集型任务,多线程适合 IO 密集型任务,而异步协程适合高并发 IO 场景。常见内存泄漏包括全局容器增长、引用循环等,可通过 tracemalloc 和 gc 模块排查。浅拷贝仅复制容器结构,而深拷贝会递归复制所有子对象。迭代器需实现 next 方法,生成器通过 yield 自动实现迭代器协议。列表、元
2025-11-19 21:22:57
970
1
原创 Megatron-LM 详细学习笔记第一章:概览与速通
摘要:Megatron-LM概览与并行训练技术 核心内容: Megatron生态演进:从学术论文(Megatron)发展为研究型框架(Megatron-LM),进而模块化为核心库(Megatron-Core),最终形成企业级解决方案(NeMo)。不同层级适用于研究、开发和生产场景。 四大并行技术: 数据并行(DP):拆分样本,同步梯度,基础扩展方案 张量并行(TP):矩阵维度切分,突破单卡容量限制 流水线并行(PP):层间分片,构建训练流水线 序列并行(SP):长序列分块处理 实践要点: 并行策略需考虑硬件
2025-11-04 19:45:39
907
原创 (大模型训练)高性能网络(InfiniBand/RoCE) 详细学习笔记:第一章:导论 - 为什么标准以太网(TCP/IP)“喂不饱” GPU?
《高性能网络(InfiniBand/RoCE)快速学习笔记》摘要 核心问题 传统TCP/IP网络无法满足AI训练(如AllReduce)的极端需求,主要痛点在于: 高CPU开销:内核深度参与导致频繁上下文切换、内存拷贝和中断处理,使CPU成为带宽瓶颈。 不可预测延迟:协议栈处理、拷贝等环节累积数十微秒延迟,拖慢GPU集群同步效率。 RDMA革命性突破 通过内核旁路和零拷贝机制实现: 内核旁路:应用程序直接与网卡交互,注册内存后由硬件完成数据传输,彻底避开内核协议栈。 零拷贝:数据直接从用户内存到网卡,避免内
2025-11-03 19:56:43
795
原创 Docker详细学习笔记 第一章:Docker 核心概念与架构
本文介绍了Docker的核心概念与架构。首先分析了容器化技术与传统虚拟机的本质区别,重点阐述了Docker在效率、资源利用和部署灵活性上的优势,包括进程隔离机制、快速启动和轻量级特性。随后详细讲解了Docker的客户端-服务器架构,包括客户端、守护进程和仓库三大组件及其协作方式。最后强调了Docker镜像、容器和仓库的核心概念,并指导完成Docker环境的安装与验证。通过本章内容,读者能够建立起对Docker基础架构的完整认知,为后续实践打下坚实基础。
2025-11-02 18:21:38
327
原创 K8s详细学习笔记 第一章:K8s入门与核心概念
Kubernetes(K8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用。其核心架构由Master节点(控制平面)和Worker节点组成,通过API Server、etcd、Scheduler等组件协同工作,实现声明式管理和自动修复。K8s提供Pod、Service、Volume等核心API对象,解决了微服务架构下的部署复杂性、服务发现等难题,成为云原生的"数据中心操作系统"。etcd作为集群状态存储中心,确保数据一致性和高可用性,是整个系统的关键组件。
2025-11-02 17:19:35
1137
原创 PaddlePaddle 详细学习笔记:第一章:环境配置与“第一个程序” (入门与排错)
深度学习模型的本质是一系列数学运算(加减乘除、矩阵乘法、激活函数等)。框架会把这些运算组织成一张有向无环图(DAG),称为“计算图”。数据(Tensor)在图中流动,完成前向计算和反向传播。特性动态图 (DyGraph)静态图 (Static Graph)适用人群研究者、学生、算法工程师日常开发部署工程师、追求极致性能的工业场景易用性高 (Pythonic)低 (需理解特定语法和概念)调试难度简单 (print/pdb)困难灵活性极高 (支持动态网络结构)较低 (图结构固定)结论。
2025-11-01 21:40:47
1125
原创 Llama-factory 详细学习笔记:第一章:环境搭建与“Hello World” (入门与排错)
Llama-factory 学习摘要 Llama-factory是一个功能强大的大语言模型微调框架,支持100+主流开源模型。其核心优势在于:通过简洁的Web UI和命令行工具,大幅降低LLM微调门槛。本笔记重点介绍了环境搭建的关键步骤: 环境配置:使用Conda创建隔离环境(python=3.10),严格匹配PyTorch与CUDA版本 依赖安装:重点解决bitsandbytes和flash-attention在Windows/Linux的安装问题 快速验证:通过Web UI运行alpaca_zh数据集的
2025-10-30 10:52:46
1050
原创 VLLM 详细学习笔记 第一章:开篇速览与环境就绪
vLLM 是一款由加州大学伯克利分校开发的高效大型语言模型推理框架,通过创新的PagedAttention算法显著提升内存利用率,特别适合高并发在线服务和大规模批处理场景。本文详细介绍了vLLM的核心优势、适用场景及与其他框架的对比差异,并提供了环境配置指南,包括硬件要求、软件版本组合建议以及安装验证步骤。通过最小可行性示例演示了基础推理功能,帮助用户快速搭建并验证vLLM运行环境。
2025-10-29 00:41:34
1167
原创 PyTorch 详细学习笔记 第一章:张量基础与运算模型
本文摘要: 本文系统介绍了PyTorch张量的核心概念与操作,重点涵盖以下内容: 张量三要素:形状(多维组织结构)、数据类型(精度与性能权衡)和设备(CPU/GPU选择) 广播机制:自动扩展小张量维度以匹配大张量,实现高效元素级运算 索引与切片:支持基础索引、范围切片、布尔掩码和整数数组索引等多种精准数据访问方式 形状变换操作:对比view(需内存连续)、reshape(自动处理连续性)和permute(维度重排)的区别与适用场景 文中通过代码示例演示了广播规则、各种索引方法以及形状变换API的实际应用,为
2025-10-26 21:12:45
577
原创 从AI算法工程师到“AI Engineering”(AI应用工程/全栈AI工程师)的改变思路
既然你是做 AI 应用的,自己写代码一定要用 Cursor 或 Github Copilot。对于你不熟悉的前端 CSS 或 SQL 语句,直接让 AI 帮你写,你负责 Code Review。在新岗位上,如果模型效果不好,第一反应应该是“优化 Prompt”或“优化检索数据”,而不是“我要重新训练一个模型”。当业务深入到一定程度,市面上的 API 无法满足需求时(比如需要极高的垂直领域专业度),你懂得如何微调(Fine-tune)小模型,这时候你就是团队里无可替代的大神。
2025-12-07 22:57:18
920
原创 1000道算法工程师面试题(大模型)—— 第35部分
摘要 本文探讨了大模型服务在生产环境中的稳定性保障与故障排查问题。主要内容包括:显存碎片化导致OOM的解决方案、僵尸进程处理、分层健康检查策略、KV Cache管理优化、GPU温度监控、共享GPU资源隔离、K8s调度问题排查、日志采样记录、共享内存配置、CUDA错误定位、客户端断开处理、降级预案设计、启动探针配置以及PyTorch版本兼容性问题。这些实践经验对于保障大模型服务的稳定运行具有重要参考价值,涵盖了从基础设施到应用层的全栈运维挑战。
2025-11-22 17:01:15
468
原创 1000道算法工程师面试题(大模型)—— 第34部分
本文聚焦RAG(检索增强生成)系统在业务落地中的性能优化问题。针对千万级数据检索延迟高的问题,提出按业务分片的优化策略;针对Embedding模型耗时,建议采用动态批处理和ONNX加速;针对短Query改写、Chunking平衡、Rerank耗时等典型问题,给出实用优化方案。同时讨论了向量数据库部署选择、并发优化、长文档处理等实战经验,涵盖从检索到生成的全链路性能瓶颈与解决方案,为大规模RAG系统落地提供技术参考。
2025-11-22 16:59:32
931
原创 1000道算法工程师面试题(大模型)—— 第33部分
本文总结了国产昇腾NPU在大模型训练和推理中的常见问题及解决方案。重点包括:MindIE推理服务显存预占机制需手动限制比例;Llama3模型需强制转换RoPE计算精度避免溢出;MindSpore迁移需注意静态图语法限制;HCCL通信故障需集群级处理;推理需采用分桶策略优化动态Shape性能;量化推荐W8A16方案;训练启动慢可通过图缓存加速;PyTorch高级算子需手动优化;Decode阶段需采用GQA等技术掩盖带宽瓶颈。文章还对比了不同国产卡的生态兼容性,并指出昇腾多机训练需配置交换机PFC和ECN以避免
2025-11-22 16:58:28
631
原创 1000道算法工程师面试题(大模型)—— 第32部分
摘要 本文聚焦生产环境中大模型推理的性能优化,涵盖vLLM、TensorRT等工具的调优实践。针对KV Cache显存利用率,建议设置为0.9-0.95;对吞吐量问题,提出降低max_num_seqs以平衡延迟与吞吐;处理突发流量时采用"先排队后拒绝"策略,设置5-10秒超时。量化方面指出权重显存可降为1/4但KV Cache仍为FP16,推荐FP8 KV Cache以获得1.8倍吞吐提升。长文本场景建议保持block_size=16以减少碎片化,并发控制推荐单卡A100(7B)安全并发
2025-11-22 16:57:31
637
原创 1000道算法工程师面试题(大模型)—— 第31部分
系统设计与优化摘要 本文探讨大模型系统设计中的核心挑战与解决方案,涵盖以下关键点: 索引策略:RAG系统采用增量更新+定期全量合并的Lambda架构,结合软删除优化百万级文档管理。 高性能网关:通过语义缓存(节省30%-50%流量)、模型路由分层、Token级计费实现亿级API调用支持。 延迟优化:区分TTFT与TPOT瓶颈,针对性优化Tokenizer、Prompt预填充或流式传输。 资源受限部署:通过AWQ量化、Tensor并行在4张3090显卡上高效运行33B代码生成模型。 安全防护:采用Prompt
2025-11-22 16:55:31
913
原创 1000道算法工程师面试题(大模型)—— 第30部分
本文聚焦Transformer底层原理与算法细节,深入解析Attention/Transformer相关核心问题。首先探讨RoPE位置编码的外推机制及其相对于绝对位置编码的优势;其次对比GQA与MQA的区别及Llama 3的选择;分析RMSNorm取代LayerNorm的趋势原因。在计算层面,详细推导7B模型的显存占用与KV Cache计算方式。此外,还涵盖SwiGLU激活函数、AdamW优化器、混合精度训练、Alibi位置编码等关键技术细节,并讨论大模型预训练中Dropout的取舍策略。最后解析生成任务中
2025-11-22 16:54:36
896
原创 1000道算法工程师面试题(大模型)—— 第29部分
本文聚焦容器化、K8s与MLOps的进阶实践,针对GPU资源管理、容器编排和模型部署等核心问题提供解决方案。主要内容包括:K8s中GPU独占配置、Docker运行时设置、节点亲和性应用、Dockerfile构建优化、显存监控与泄漏识别、Pod驱逐处理、共享存储加速、共享内存配置、Operator应用以及健康检查等生产环境关键问题。特别强调了大模型训练场景下的性能优化和稳定性保障措施,如Gang调度、网络模式选择和CI/CD中的模型评估阻断机制。这些实践经验对于高效利用GPU资源和确保ML系统稳定运行具有重要
2025-11-22 16:53:36
459
原创 1000道算法工程师面试题(大模型)—— 第28部分
多模态大模型技术解析 本文聚焦多模态大模型(Llava/Qwen-VL等)的关键技术问题。主要内容包括: 视觉编码器对比:CLIP与SigLIP在高分辨率处理上的差异,SigLIP在细节保留方面表现更优 工程优化:部署策略(推荐vLLM/TensorRT)、量化注意事项(ViT需保持FP16)、显存分配问题(KV Cache是瓶颈) 核心组件:Projector层的作用(维度/语义空间对齐)、高分辨率处理方案(全局+局部切片策略) 特殊场景优化:视频理解需时序处理、幻觉抑制方法、语音模态对齐技术、工业领域微
2025-11-21 17:35:10
761
原创 1000道算法工程师面试题(大模型)—— 第27部分
答案:优先检查数据质量。Reward Model (RM) 对数据噪声极其敏感。如果标注员(Annotators)之间的一致性(Inter-Annotator Agreement)很低,神仙架构也救不回来。指的是 Policy Model 找到了一种“作弊”方法,生成一些人类看不懂或者毫无逻辑的文本,但恰好利用了 Reward Model 的漏洞,骗取了高分。RM 偏好长文本,模型就开始无限重复废话;RM 偏好某些关键词,模型就疯狂堆砌这些词。答案:通常是对“最后一句话”打分。输入,模型输出。
2025-11-21 17:34:23
570
原创 1000道算法工程师面试题(大模型)—— 第25部分
这 100 道题涵盖了从语言基础、框架原理、推理加速、训练微调、硬件底层到工程落地的全链路知识。如果你能流畅、自信地回答其中 80% 的问题,并且能结合你简历里的项目(比如那个“五邑大学 Qwen 项目”和“AITalkingKeyboard”的实战坑),你对于面试官来说就是一个即插即用、具备全栈解决问题能力的高级候选人。
2025-11-21 17:33:26
797
原创 1000道算法工程师面试题(大模型)—— 第24部分
硬件与国产算力适配摘要 本文针对底层硬件和国产化适配的关键问题进行了深入解析,涵盖CUDA编程、国产AI芯片开发、算力迁移痛点及性能优化等方面。在CUDA方面,重点讲解了Kernel Launch设计原则、Stream优化和Unified Memory的适用场景。对于国产芯片,详细分析了昇腾NPU架构特点、算子开发方式、调试工具使用以及精度对齐问题。同时指出了国产卡运行大模型的主要痛点在于调试困难和报错不透明,而非单纯的算子缺失。在多机通信方面,对比了NCCL和HCCL的环境配置差异。全文提供了大量实用的性
2025-11-21 17:32:37
497
原创 1000道算法工程师面试题(大模型)—— 第23部分
摘要: 本文总结了LLM训练与微调中的46个实战问题,涵盖LLaMA-Factory/DeepSpeed工具使用、显存优化、并行训练等核心场景。重点包括:ZeRO显存切分策略的通信权衡、LoRA微调节省显存90%的实操配置、国产卡混合精度训练溢出解决方案、Megatron-LM的3D并行实现原理,以及训练中断恢复必须加载优化器状态等关键经验。特别强调数据质量对Loss稳定的决定性影响,并给出QLoRA 4bit量化训练、词表扩容初始化等具体实施方法。
2025-11-21 17:31:12
478
原创 1000道算法工程师面试题(大模型)—— 第22部分
大模型推理与加速技术要点 本文总结了vLLM、SGLang、MindIE等框架的核心技术原理与实践经验。重点包括: 显存优化:PagedAttention通过分块管理KV Cache解决显存碎片问题 批处理优化:Continuous Batching动态调度提升GPU利用率 长文本处理:SGLang的Radix Attention优化共享前缀复用 硬件适配:昇腾卡部署时的算子兼容性解决方案 量化技术:AWQ与GPTQ量化方法的比较及实际应用注意事项 并行策略:单机多卡场景下Tensor Parallelis
2025-11-21 17:28:55
943
原创 1000道算法工程师面试题(大模型)—— 第21部分
本文总结了Python与深度学习框架基础的20个面试问题及参考答案,主要涵盖Python多线程、PyTorch数据加载、自定义反向传播、MindSpore与PyTorch对比、梯度爆炸排查、生成器优势、DP与DDP区别、装饰器使用、内存泄露排查、深拷贝/浅拷贝陷阱、模型保存方式等核心知识点。答案结合工程实践,提供了性能优化、问题排查和生产环境最佳实践方案,如使用多进程规避GIL锁、优化数据加载速度、处理不可导操作、监控梯度爆炸、惰性处理大规模数据、选择DDP并行训练等实用技巧。
2025-11-21 17:27:00
465
原创 1000道算法工程师面试题(大模型)—— 第19部分
大模型系统架构与成本优化摘要 本文探讨大模型系统的架构演进与成本优化策略。在架构方面,建议分阶段实现多模型支持:先抽象网关层,再建立模型注册中心,最终实现多区域部署。面对GPU资源紧张,可从模型量化、架构缓存和业务分级三方面降本。成本监控需关注GPU使用率、Token消耗等指标,并建立多维标签体系。对于流量波动明显的场景,建议结合弹性伸缩与离线任务调度实现资源最大化利用。系统扩展至亿级调用时,需重构网关、存储和推理层。设计上应采用适配器模式避免平台耦合,并通过日志、指标和链路追踪实现全链路可观测性,使用统一
2025-11-21 17:23:40
614
原创 1000道算法工程师面试题(大模型)—— 第18部分
多模态大模型技术深度解析 本文系统梳理了多模态大模型(VLM/LMM)的核心技术与应用方案。在模型架构方面,详细分析了视觉编码器与文本编码器的对齐机制,包括CLIP、Q-Former等关键组件。针对复杂业务场景,提出了图文问答系统全链路设计、OCR结构化处理、多模态RAG检索等解决方案。特别探讨了视频理解中的关键帧抽取策略和长视频处理技术,以及如何根据文件类型(PDF/Excel/视频)设计智能路由处理流程。在工程优化方面,总结了动态分辨率、Token剪枝、量化等降低推理成本的方法。最后,针对UI自动化等复
2025-11-21 17:22:49
867
原创 1000道算法工程师面试题(大模型)—— 第17部分
本文深入探讨了LLM在企业应用中的数据安全与隐私保护策略。主要内容包括: 数据分级管理:将企业数据划分为公开、内部、敏感和极密四个等级,分别采取不同处理措施; 隐私保护技术:提出假名化/实体替换的脱敏方案,平衡隐私保护与模型效果; 合规性设计:涵盖数据跨境传输、多地区法规兼容、第三方供应商评估等关键环节; 安全架构:包括日志脱敏、权限控制、审计追踪等系统级防护措施; 特殊场景处理:针对训练数据泄露风险、用户数据删除请求等提供解决方案。 文章强调在企业级LLM应用中,安全合规是项目落地的关键因素,需要从技术和
2025-11-20 20:26:52
733
原创 1000道算法工程师面试题(大模型)—— 第16部分
本文探讨了LLM在代码生成、工具调用和智能体应用中的关键技术方案。重点包括:1)构建"生成-测试-修复"循环的自动编程系统;2)通过Prompt优化、模型选择和后处理提升代码可执行率;3)采用Prompt防御、静态分析和沙箱隔离确保代码安全;4)工具调用系统的Schema设计和解析方法;5)多工具调用的顺序控制和依赖处理;6)通过硬限制和循环检测避免Agent无限循环;7)基于状态机的业务流程编排方案;8)采用结构化日志记录Agent执行过程;9)结合规则引擎增强工具调用的可靠性。这些方
2025-11-20 20:25:58
609
原创 1000道算法工程师面试题(大模型)—— 第15部分
摘要:本文针对深度学习与分布式系统中的典型故障场景,提供了一套实战排查方法论。核心问题包括:推理超时(GIL/GC阻塞)、训练NaN(学习率/数据异常)、多卡死锁(NCCL通信)、显存泄漏(计算图残留)、I/O性能瓶颈等。每个问题均给出分层诊断工具链(如py-spy、NCCL_DEBUG、torch内存分析)和修复方案,强调从监控指标(GPU利用率、网络拓扑)到代码细节(同步I/O、梯度裁剪)的系统性排查逻辑。同时提出日志规范(TraceID、结构化日志)和性能优化策略(向量化/JIT编译),适用于生产环境
2025-11-20 20:25:18
549
原创 1000道算法工程师面试题(大模型)—— 第14部分
本文聚焦大模型项目实践中的关键能力考察点,包括工程落地、问题解决、团队协作和技术视野。重点内容包括:1)项目介绍方法论(STAR原则),强调从业务背景到技术方案的系统性呈现;2)典型技术难点解析,如长文档处理、性能优化等问题的解决思路;3)团队协作与沟通技巧,包括技术分歧处理、能力边界沟通等;4)事故处理与学习路径,体现运维意识和持续学习能力。文章通过具体案例展示了如何在实际项目中平衡技术深度与业务需求,为开发者提供了实用的方法论指导。
2025-11-20 20:24:33
638
原创 1000道算法工程师面试题(大模型)—— 第13部分
三级应对策略:Level 1: PyTorch 组合拼凑 (Composite Ops)如果缺失某个融合算子(如 SwiGLU),先用 PyTorch 原生基础算子(mulsigmoid)组合实现。开发极快,保证功能跑通。显存读写次数多,性能差。Level 2: 脚本级编译优化 (TorchCompile / JIT)利用(Inductor) 或国产平台的图编译能力,自动将上述组合算子融合,减少 Kernel Launch 开销。Level 3: 自定义算子开发 (Custom Kernel)
2025-11-20 20:23:14
933
原创 1000道算法工程师面试题(大模型)—— 第12部分
本文探讨了大模型训练中的数据工程与MLOps实践,重点包括: 数据质量管控:强调数据清洗(规则过滤、质量分类)、去重(MinHash+LSH)和标注增强(Self-Instruct)的关键步骤 数据处理流水线:设计可复用的ETL流程,包含数据接入、标准化处理、版本控制和审计报告 持续训练挑战:提出数据回放、LoRA微调和EWC等方法平衡新旧知识学习 MLOps差异:指出大模型在资源规模、产物存储和评估方式上的特殊性 自动化流水线:构建包含持续训练(CT)、评估(CE)和部署(CD)的完整CI/CD流程 故障
2025-11-20 20:22:38
608
原创 1000道算法工程师面试题(大模型)—— 第11部分
**摘要:本文探讨了LLM推理性能优化与多租户架构的关键技术,包括显存管理(如PagedAttention)、动态批处理、连续批处理调度等优化策略。针对多租户场景,提出了优先级调度、资源配额和隔离方案。还分析了GPU利用率监控、流量削峰方法,以及长短连接架构差异。这些技术可有效提升LLM推理的吞吐量和稳定性,同时保障多租户服务的公平性。
2025-11-20 20:22:01
638
原创 1000道算法工程师面试题(大模型)—— 第10部分
大模型评估与安全关键问题总结 本文探讨了大模型落地过程中最关键的评估与安全挑战,涵盖自动化评估体系设计、主客观评估方法比较、模型替换策略、降低幻觉方法、安全控制机制等核心议题。重点内容包括: 评估体系构建:提出Dataset + Runner + Judge + Reporter框架,区分确定性任务(如代码生成)和非确定性任务(如客服问答)的评估方法 评估方法对比:分析客观评测(速度快但可能过拟合)与主观评估(贴近用户但成本高)的优缺点 模型替换策略:强调质量、成本、延迟等多维度指标,采用离线评估、流量回放
2025-11-20 20:21:16
496
原创 1000道算法工程师面试题(大模型)—— 第九部分
本文深入探讨了RAG(检索增强生成)与向量检索的关键技术问题,重点包括:1)索引构建阶段的文档预处理策略,特别是对表格、长文档等特殊格式的处理;2)chunk切分的不同方法及参数调优;3)向量检索与关键词检索的混合搜索实现;4)RAG性能问题的排查方向;5)实时业务的数据更新方案;6)Embedding模型的选择考量;7)索引算法的性能取舍;8)重排模型的作用与工程实现;9)大规模系统的分片与副本设计;10)多租户场景的数据隔离方案。这些内容涵盖了RAG系统从数据准备到检索优化的全链路技术细节。
2025-11-20 20:20:24
528
原创 1000道算法工程师面试题(大模型)—— 第八部分
本文摘要探讨了在线大模型对话服务架构设计的关键问题,包括高并发处理、延迟优化、多模型路由、会话管理、缓存策略和安全控制。核心解决方案包括:异步流式传输与连续批处理提升吞吐;多级优先队列平衡延迟;语义路由实现模型级联;集中式存储保障会话一致性;快慢分层优化用户体验;三级缓存体系减少重复计算;数据脱敏管道保护隐私;以及Prompt版本化管理和AB测试框架。这些方法共同构建了高效、可靠且安全的大模型服务基础设施。
2025-11-20 20:19:43
519
原创 1000道算法工程师面试题(大模型)—— 第七部分
**文章摘要:RAG系统架构包含查询处理、检索、重排、生成四个关键环节,重点涉及查询改写、多模态chunk策略、跨模态检索和Prompt设计。向量检索技术中IVF适合大规模索引平衡速度与精度,HNSW适用于低延迟高召回场景,评估指标包括recall@K、延迟和吞吐量。多模态RAG需统一embedding空间,采用图文/音视频融合chunk,并配合多模态LLM生成答案,核心挑战在于跨模态对齐与检索效率优化。(150字)
2025-11-19 21:29:01
400
原创 1000道算法工程师面试题(大模型)—— 第六部分
摘要: CUDA编程采用网格(grid)-块(block)-线程(thread)三级并行结构:线程是最小执行单元,块内线程可通过共享内存通信,网格由多个块组成。高性能CUDA内核需优化内存访问模式,如全局内存合并访问、共享内存分块、减少寄存器溢出。分支发散(warp divergence)会降低性能,可通过数据重排或算术运算规避。性能分析工具包括Nsight和nvprof,需针对性优化内存或计算瓶颈。国产算力平台(如昇腾)提供类似CUDA的API,但存在算子兼容性和生态差异等适配挑战。 (字数:150)
2025-11-19 21:28:20
938
原创 1000道算法工程师面试题(大模型)—— 第五部分
文章摘要: vLLM通过PagedAttention机制将KV Cache分块管理,显著提升大模型推理吞吐。其核心思想是将KV Cache拆分为固定大小的blocks,通过块表动态管理,实现显存高效利用和连续批处理。相比传统方法,vLLM可提升吞吐数倍,同时支持KV共享。LMDeploy侧重压缩与多模型部署,SGLang则提供结构化生成语言,适合复杂LLM工作流。大模型推理的瓶颈主要包括显存容量、计算带宽和调度开销。通过KV Cache复用和连续批处理可提升性能,其中后者能动态调度请求,保持GPU高负载。L
2025-11-19 21:27:33
958
具有运动检测和地理围栏功能的复杂、电池敏感、跨平台背景地理定位_TypeScript_Objective-C_下载.zip
2023-05-02
是一个检测App何时进入后台前台的组件,同时支持多进程检测_Kotlin_Java_下载.zip
2023-05-02
Cordova启用了后台地理定位,因此您的MeteorCordova应用程序即使在关闭暂停时也可以更新位置_JavaSc.zip
2023-05-02
连接图像滑块以显示不同图像的小型JavaScript应用程序_CSS_HTML_下载.zip
2023-05-02
一个使用NSURLSession后台传输在文件滚动时上传文件的LogFileManager_Objective-C_Sh.zip
2023-05-02
专为Laravel5整理的后端模板,只写了由页面跳转,给开发者最大的空间自己开发_PHP_HTML_下载.zip
2023-05-02
运行后台服务以按预定义的时间间隔获取用户位置并将其经纬度和地址存储到数据库中的演示。-它显示正在进行的通知以显示服务正在.zip
2023-05-02
软件开发综合项目——辛德瑞拉婚纱礼服定制网站,使用SSM框架和Maven管理工具,开发环境为EclipseJeePhot.zip
2023-09-15
一个基于SSM框架的个人日志系统(个人技术博客)_JavaScript_CSS_源码_下载.zip
2023-09-15
采用SSM框架的电商网站,数据库采用和MySql。包含用户管理,订单,品类,产品,购物车,地址,在线支付七个模块。项目的.zip
2023-09-15
基于SSM的电影购票系统框架:Spring+SpringMVC+MyBatis+JSP数据库和工具:MySql,Navi.zip
2023-09-15
基于SSM框架实现的高并发商品秒杀系统,c3p0作为连接池,Redis为存储实现高并发,同时通过MySQL优化降低了网络.zip
2023-09-15
ssm集成项目,crm管理系统,crm.sql为数据库文件,使用时需要修改configmysql.properties输.zip
2023-09-15
django-tracking2跟踪访问者和注册用户在您网站上花费的时间长度 虽然这适用于网站,但更适用于具有注册用户的.zip
2023-09-05
一个可以用代号处理控件的阴影效果,以及用代号在TextView、EditText、Button等控件设置selector.zip
2023-05-03
证件照片背景颜色替换;输入一张证件照片,指定背景颜色,运行程序,自动替换证件照片底色_Python_下载.zip
2023-05-03
使用便宜的检测器和RaspberryPi监测和记录背景辐射水平_Python_Shell_下载.zip
2023-05-03
当没有缓冲区打开时,在应用程序的后台显示应用程序提示_JavaScript_Less_下载.zip
2023-05-02
这是一个使用Swift中的CoreML和CoreImage示例去除图像背景_Swift_下载.zip
2023-05-02
第一个使用jQueryCycle插件作为全屏背景幻灯片的jQuery插件_JavaScript_CSS_下载.zip
2023-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅