小新学习屋-CSDN博客

原创大模型-提示工程

本文系统介绍了大语言模型（LLM）的类型与使用方法，重点对比了基础大模型（基于概率预测）和指令微调模型（通过RLHF优化）的差异。详细阐述了ChatGPT提问的两大核心原则：1）编写清晰具体的指令（使用分隔符、结构化输出等技巧）；2）给予模型思考时间（分步推理等）。同时介绍了温度参数、角色权重等接口设置，并提供了总结、推断等5种典型应用场景。

2025-11-15 23:32:45 1374 2

原创知识图谱-业界落地

本文梳理了2018-2024年知识图谱在各行业的落地应用案例，涵盖贝壳找房、美团、百度等企业实践，涉及推荐系统、智能问答等多个场景。全文既展示知识图谱技术发展脉络，又突出与读者的深度连接，体现专业性与互动性的结合。

2025-11-15 23:29:03 357

原创自然语言处理-三大任务

本文概述了自然语言处理（NLP）领域的关键技术和任务。介绍了经典语言模型（如N-gram模型）及其改进方法，包括平滑技术处理零概率问题。基础任务涵盖词法分析（分词、词性标注）、句法分析和语义分析。应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等。

2025-11-14 23:57:42 776

原创自然语言处理-文本表示

本文系统介绍了4种文本表示方法：1）独热编码，通过补充词性、语义等特征解决同义词问题；2）分布式表示，使用共现频次和SVD等方法，但存在高频词干扰等缺陷；3）词嵌入表示，通过模型学习获取更优表征；4）词袋模型，简单但忽略词序。

2025-11-14 23:50:36 702

原创揭秘Batch Size与学习率的关系

研究表明学习率与批量大小的关系存在两种可能：平方根或线性关系。增大批量时需相应提高学习率（如批量增大x倍，学习率增大√x倍）。从损失角度看，学习率随批量增加而单调递增但存在上限。OpenAI验证了大批量/高学习率与少量/低学习率的等效性。未调整学习率时大批量训练可能更耗时，需合理调节学习率以实现并行加速效果。

2025-11-13 23:50:08 235

如下是一些常用技巧，可供参考：使用高效的优化器：如AdamW和Adam，这些优化器可以帮助模型更快地收敛。利用硬件加速器：使用GPU或TPU来加速计算。最大化批量大小：增加批量大小可以提高训练效率，但需要更多的内存。使用贝叶斯优化：如果超参数搜索空间很大，贝叶斯优化可以帮助找到最佳超参数。设置DataLoader中的max_workers：增加工作线程数可以加快数据加载速度。设置DataLoader中的pin_memory：将数据固定在内存中可以加速数据传输到GPU。

2025-11-13 23:42:58 464

原创开源代码库

本文汇总了推荐系统领域的知名开源代码库，包括TensorFlow、PyTorch等框架实现的多种推荐算法模型。主要介绍了TFRSPython、RecBole、TorchRec等库的特点和适用场景，涵盖从数据处理到模型评估的全流程。这些开源工具为推荐系统的研究和应用提供了便利，适合不同层次的技术人员使用。

2025-10-23 00:43:55 595

原创线上线下不一致问题探究

本文介绍了线上线下不一致的6个原因：特征不一致、离线本身就有bug、离线提升不置信、线上降低不置信、数据分布不一致、业务冲突，深入洞察实际场景下的问题

2025-10-23 00:32:51 804

原创大模型-智能体-【篇六： Autogen Studio、CrewAI vs AutoGen】

本文对比分析了两个智能体框架：Microsoft的AutogenStudio和CrewAI。AutogenStudio是建立在AutoGen框架上的UI应用（2024.01发布），提供详细安装教程但尚未成熟。CrewAI更适合熟悉LangChain的开发者，学习曲线较AutoGen平缓。

2025-10-20 09:15:00 685

原创大模型-智能体-【篇五： Autogen、CrewAI、Autogen MultiAgent】

本文介绍了三种智能体框架：Autogen（微软2023.03发布，支持多智能体协同）、CrewAI（2023.11推出，作为Autogen替代方案）和AutogenMultiAgent（通过API集成扩展功能）。重点展示了各框架的项目链接、发布时间和核心功能，包括Autogen的多智能体协同、CrewAI的具体实现示例，以及AutogenMultiAgent通过API实现的群聊、应用开发和旅游代理系统等功能。

2025-10-20 09:00:00 334

原创大模型-智能体-【篇四： Agent GPT 、AgentTuning、LangChain-Agent】

本文介绍了三种智能体框架：AgentGPT、AgentTuning和LangChain-Agent。AgentGPT（2023.04）是一个浏览器运行的Agent项目，支持GPT-4模型调用；AgentTuning（2023.10）是清华大学与智谱AI提出的方法，通过构建AgentInstruction数据集和混合指令微调提升LLM的Agent能力；LangChain-Agent则提供了多种代理类型。文章详细说明了各框架的实现原理、技术特点和应用场景，并附有项目链接供读者参考。

2025-10-19 09:15:00 648

原创大模型-智能体-【篇三： AutoGPT 、BabyAGI 、HuggingGPT】

本文介绍了三种主流智能体框架：1）AutoGPT（基于GPT-4/3.5的任务自动化工具）；2）BabyAGI（支持多模型的任务管理系统）；3）HuggingGPT（自动调用Huggingface模型的AI调度系统）。分别从发布时间、项目链接、核心功能和使用方法进行说明，其中AutoGPT近期移除了向量数据库支持，BabyAGI支持任务优先级管理，HuggingGPT能自动分析需求并调用合适模型。

2025-10-19 09:00:00 1845

原创大模型-智能体-【篇二：多智能体框架】

本文综述了近年来7种多智能体协作框架：AutoGen（2023）支持自然语言交互和多工具组合；MetaGPT（2023）采用标准化操作提示优化工作流；AGENTS（2023）提供模块化开源库；OpenAgents（2023）构建Web交互平台；ChatDev（2023）实现虚拟公司式软件开发；CAMEL（2023）运用角色扮演生成对话数据；AgentSims（2023）创建沙盒测试环境。最新提出的AgentScope（2024）专注于提升系统易用性和容错能力，以简化多智能体系统的复杂交互。

2025-10-18 23:54:08 290

原创大模型-智能体-【篇一：单智能体框架】

本文概述了四种单智能体框架：1）Transformers-Agents支持多模型代码生成；2）LangChain提供认知架构集成工具，包含LangServe和LangSmith拓展功能；3）AutoGPT实现LLM迭代决策；4）ModelScope-Agent整合开源LLMs与API，提供全流程应用支持。这些框架各具特色，专注于提升单个智能体的任务执行能力。

2025-10-18 23:52:41 279

原创大模型-训练-【篇六：后训练-模型质量评测】

大模型评估方法包括自动评估（基于标准答案或大模型）和人工评估（适用于开放式或敏感任务）。

2025-10-17 00:15:54 246

原创大模型-训练-【篇五：后训练-强化学习】

本文介绍了强化学习（RL）的演进路径，重点对比了不同奖励机制：RLHF（人类反馈）、RLAIF（AI反馈）、RLVR（可验证奖励），以及过程监督和评分标准奖励。RLVR在数学推理和代码能力方面表现突出。文章还比较了PPO、GRPO等RL算法特性。

2025-10-17 00:03:51 578

原创大模型-训练-【篇四：后训练-基础了解&SFT】

随着预训练边际效益递减，后训练技术(SFT和强化学习)成为提升模型性能的关键，重点在于数据质量优化。SFT阶段需处理标签噪声、分布不匹配等问题，通过过滤/验证/数据增强建立高质量pipeline。训练时采用动态批处理等技术提升效率，使用改进的交叉熵损失函数避免数值问题。后训练核心是对齐模型行为（如诚实性）并强化预训练能力。

2025-10-16 23:56:36 1366

原创大模型-高频考点-每日一更【篇二】

摘要：Dropout是一种仅在训练阶段应用的神经网络正则化技术，通过随机丢弃神经元（比例为p）来防止过拟合。在训练时会对保留的神经元激活值进行缩放（乘以1/(1-p)），以保持总体激活规模；而在推理阶段则直接输出原始值。代码示例展示了PyTorch中Dropout层在训练和评估模式下的不同行为。

2025-10-15 23:43:20 433

原创大模型-高频考点-每日一更【篇一】

大模型设计多采用PostNorm而非PreNorm，主要因为：1) 相同参数下PreNorm更易训练，但优化参数后PostNorm效果更优；2) Pretraining阶段二者表现接近，但PostNorm的Finetune效果显著更好。PreNorm会降低网络深度影响泛化能力，而PostNorm配合Warmup策略能实现各层同步优化避免梯度问题。研究表明（《Understanding...》《RealFormer...》），PostNorm通过合理预热可稳定训练过程，最终获得更优性能。

2025-10-15 23:37:49 295

原创大模型-多模态-【篇四：多模态大模型和LLM】

多模态大模型研究将文本大模型(LLM)拓展至视觉语言任务，主要分为四类方法：1)视觉转文本输入(如PICA、ScienceQA)；2)LLM调度多模态模型(如VisualChatGPT)；3)视觉指导生成(如MAGIC)；4)冻结LLM+训练适配器(如LLaVA、NExT-GPT)。其中第四类因低成本拓展优势最受关注，LLaVA在ScienceQA微调后达92.53%准确率。最新开源项目Aria推出首个MoE多模态大模型，支持文本/图像/视频/代码处理。这些工作通过不同方式实现了LLM的多模态能力迁移。

2025-10-14 00:15:08 873

原创大模型-多模态-【篇三：微调】

本文介绍了多模态大模型微调的代码实现过程，分为图像/文本编码器训练和模型融合两个阶段。详细说明了编码器选择（ResNet/ViT）、参数处理（冻结/可训练）以及特征融合方法（concat+Linear转换）。同时对比了LLM参数冻结与LoRA微调等不同方案，为多模态模型开发提供了实用指南。

2025-10-14 00:02:36 924

原创大模型-多模态-【篇二：典型模型】

本文综述了多模态大模型的最新进展，重点分析了CLIP、BLIP、LLaVA、VisualGLM等代表性模型的核心架构和训练范式。CLIP通过对比学习建立图像-文本共享向量空间，BLIP创新性地统一了多模态理解与生成任务，LLaVA和VisualGLM则探索了视觉-语言模型的联合训练策略。文章还介绍了MiniCPM-V2.0和InternVL1.5等最新成果，展现了多模态模型在跨模态对齐、指令微调和端侧部署等方向的技术突破。这些进展为构建更强大的多模态理解与生成系统提供了重要参考。

2025-09-25 00:15:00 876

原创大模型-多模态-【篇一：扩散模型】

本文系统介绍了扩散模型的核心内容与发展脉络。在基本原理部分，详细阐释了DDPM模型的前向/反向扩散过程、噪声预测优化目标及其与VAE的关联。发展历程方面，梳理了从基础模型到多模态生成的技术演进，包括采样加速、CLIP引导等关键突破。应用领域覆盖计算机视觉、时序预测、NLP及科学计算等多个场景。实战环节提供从零构建MNIST扩散模型、Diffusers库实现、图像生成优化等具体指导，特别介绍了Stable Diffusion、ControlNet等前沿技术的实现细节。

2025-09-24 01:59:46 834

原创大模型-训练-【篇三：微调】

PEFT（参数高效微调）是一种在不调整全部模型参数的情况下将预训练语言模型适配下游任务的技术库。它通过微调少量参数显著降低计算和存储成本，同时保持与全参数微调相当的性能。主流方法包括AdapterTuning、PrefixTuning、PromptTuning、LoRA等，其中LoRA通过低秩矩阵模拟全参数微调，在推理时无额外计算开销。P-Tuning及其改进版本通过多层提示编码提升小模型表现。这些技术为大规模模型应用提供了高效解决方案，适用于不同场景需求。

2025-09-24 01:42:26 1082

原创大模型-幻觉

大模型幻觉是AI生成与事实不符内容的现象，在创作场景中可能有益，但在医疗等专业领域需避免。幻觉可分为语境冲突性和事实冲突性两类，产生原因包括数据缺陷、训练不当和生成策略问题。评估方法包括生成事实陈述和判别式基准评估。缓解策略主要有：构建高质量微调数据、强化诚实对齐、优化解码策略和外挂知识库增强。需注意大模型无法自知其知识边界，现有方法只能缓解而无法根除幻觉。不同应用场景需采取针对性措施，知识图谱等工具可辅助提升准确性。

2025-09-20 01:14:58 923

原创 Look-alike【RALM模型】

RALM（实时注意力Look-alike模型）是腾讯微信2019年提出的推荐系统创新方案，首次实现工业级实时人群扩展。其核心创新在于：1）通过离线训练（用户表征+Look-alike学习）和在线异步处理实现实时更新；2）采用全局/局部注意力机制提升种子用户embedding的准确性；3）引入K-means聚类优化表征多样性。实验表明，RALM在AUC、CTR等指标上显著优于传统模型（LR/Yahoo/Youtube-DNN），成功应用于微信推荐场景。

2025-09-20 00:50:21 889

原创大模型-DeepResearch

【AI前沿技术综述】本文汇集了18篇关于DeepResearch技术的前沿研究，涵盖超级搜索智能体、多智能体架构、RAG优化等核心方向。重点包括：1）OpenAI等机构的80种系统全面综述；2）Google基于LangGraph的全栈实现方案；3）动态子查询与循环搜索优化技术；4）百度TURA架构较RAG提升8.9%性能的突破。特别推荐LangChain的实战教程和Zilliz开源项目，为开发者提供从理论到实践的完整路径。文末附有算法专家提供的求职辅导服务信息。

2025-09-14 01:40:01 1109

原创大模型-训练-【篇二：训练加速&工具】

本文系统介绍了大模型训练中的并行优化策略，重点对比了FSDP和DeepSpeed两种主流方案。主要内容包括：1) PyTorch FSDP借鉴DeepSpeed ZeRO和FairScale思想，实现参数/梯度/优化器状态的分片管理；2) 详细解析数据并行(DDP)的通信优化机制和ZeRO三阶段(优化器/梯度/参数分片)的显存优化原理；3) 对比3D并行(TP+PP+DP)与ZeRO的协同使用；4) 分析Megatron(擅长TP)与DeepSpeed的特长与融合趋势；5) 讨论混合精度训练中bf16/fp

2025-09-12 00:15:00 1830

原创大模型-模型融合

本文介绍了大模型融合的5种方法：1）模型整合（如EoT跨模型通信）；2）概率集成（词表输出概率融合）；3）嫁接学习（结构权重嫁接+继续预训练）；4）众包投票；5）MoE（如GShard、Switch Transformers等）。重点解析了各类方法的技术原理与应用场景，如GShard的Top-2门控、Switch的Top-1策略等。

2025-09-11 00:15:00 2159

原创大模型-对齐

【摘要】OpenAI提出Weak-to-Strong新对齐方法，通过弱监督引导强模型能力，解决传统RLHF对超人类模型监督失效问题。核心方案采用辅助置信度损失（Auxiliary Confidence Loss），使强模型能纠正弱监督错误。实验显示7B模型外挂可使GPT-4安全性提升26.9%。该方法虽未带来显著性能突破，但为模型对齐提供了新思路，强调应理性看待其作用。

2025-09-10 01:11:52 609

原创大模型-压缩-【篇二】

本文系统介绍了模型压缩与高效推理的五大类方法：1）量化技术；2）网络剪枝；3）知识蒸馏（按训练阶段分类）；4）紧凑架构设计（重点优化注意力机制和Transformer）；5）动态网络（含提前退出、级联推理和专家混合MoE）。其中动态网络部分详解了三种策略的计算优化原理。

2025-09-10 00:57:04 741

原创大模型-压缩-【篇一】

大模型压缩技术主要分为剪枝、知识蒸馏、量化和低秩分解四大类。其中剪枝分为深度剪枝（移除整个层）和宽度剪枝（减少权重矩阵大小），研究表明深度剪枝结合LoRA重训练能显著提升推理速度。量化技术通过降低数值精度来减小模型体积，包括线性/非线性量化和不同应用阶段的量化方法。知识蒸馏则用于训练小型语言模型。这些方法在保持模型性能的同时，有效解决了大模型在计算资源和推理速度方面的问题，为实际应用提供了重要技术支撑。

2025-09-10 00:49:00 920

原创大模型-RAG（检索增强生成）-【篇三】

RAT方法：结合RAG与思维链的创新推理框架 RAT方法通过将检索增强生成(RAG)与思维链(CoT)结合，提出了一种创新的推理框架。该方法在CoT的每个推理步骤中引入RAG进行信息校正，有效减少模型幻觉。研究发现，RAT特别适用于开放性长文本生成任务，在代码生成、数学推理等4个领域能提升GPT系列模型的性能。论文提供了完整实现方案和开源代码(CraftJarvis/RAT)，包括具体流程图和提示词设计。相比传统方法，RAT通过因果推理机制实现多轮文本检索修正，但会带来2n+1次的LLM调用开销。该方法不适

2025-09-06 00:15:00 995

原创大模型-RAG（检索增强生成）-【篇二】

摘要：本文系统介绍了检索增强生成（RAG）技术及其优化方法。RAG分为朴素RAG、高级RAG和模块RAG，核心包含索引、检索、生成三部分。朴素RAG存在信息提取不完整、检索效率低等问题，高级RAG通过索引优化、Query重写（如HyDE方法）和重排序（如ReRank技术）进行改进。文章还介绍了RAGAS评估框架的关键指标，以及处理PDF表格等特殊场景技术方案。最后提出RAG+思维链（CoT）结合的RAT方法，有效减少模型幻觉，提升多步骤任务的性能。全文提供了具体实现方案和技术细节，对RAG技术具有指导意义。

2025-09-05 00:31:16 1309

原创大模型-RAG（检索增强生成）-【篇一】

本文全面总结了大模型检索增强生成(RAG)技术，涵盖架构分类、评估方法、增强方案和应用场景。重点分析了5种RAG增强方案，包括SELF-RAG事后纠正和自适应检索等方法。文章详细解析了RAG三大关键模块：query理解（意图识别、改写/扩写）、检索模型（文档处理、向量索引）和生成模型（prompt策略）。通过对比微调方式，指出RAG在知识更新成本和任务效果方面的优势，但也存在依赖知识库等局限性。最后提供了基于ErnieBot的RAG实现示例，适合需要处理动态知识场景的应用开发。

2025-09-04 23:56:35 1426

原创大模型-模型系列（篇五）-DeepSeek

涵盖DeepSeek模型部署、评测、复现及核心技术解析。重点包括：1）DeepSeek-R1模型的本地/云端部署方案及硬件配置指南；2）开源复现项目进展，包括基于Qwen架构的复现实践；3）核心技术解析，如混合专家模型(MoE)、知识蒸馏、强化学习算法GRPO等；4）生态工具链更新，如Zotero文献助手、KTransformer推理优化；5）性能评测显示1.5B参数模型数学能力超越GPT-4o。此外还提供技术全景解读、Scaling Law分析及李国杰院士对话等深度内容

2025-09-02 00:15:00 1619

原创大模型-模型系列（篇四）-Qwen

摘要：Qwen（通义千问）是大模型家族，包含语言模型(Qwen)、视觉语言模型(Qwen-VL)、音频模型等。主要分预训练模型（如Qwen2.5-7B）和指令微调模型（带"-Instruct"后缀）。采用151646词表的BPE分词法，支持32K/128K长文本处理。Qwen2.5系列统一了控制token系统（共22个），包括对话、工具调用等专用token。多篇技术文章解析了Qwen3嵌入模型、混合思考机制、多模态实现等创新点，其中Qwen2.5-VL是目前领先的开源多模态算法。

2025-09-01 04:00:00 1540

原创大模型-模型系列（篇六）-文心

百度开源文心4.5系列大模型，包含10款不同参数规模的MoE和稠密参数模型，总参数量达424B。所有模型基于Apache2.0协议开源，配套ERNIEKit训练工具和FastDeploy推理工具。核心技术亮点包括：1）异构混合并行训练框架，支持FP8混合精度；2）多模态混合专家架构，实现跨模态知识融合；3）三阶段预训练策略，引入新型损失函数优化稳定性；4）后训练采用渐进式强化学习和UPO算法。该系列在LLM和VLM任务表现优异，尤其适合端侧部署。开源地址涵盖HuggingFace、GitHub和飞桨星河社区

2025-09-01 00:39:29 1260

原创大模型-模型系列（篇三）-Llama

本文系统梳理了Meta公司Llama大模型家族的技术演进历程。从2023年2月发布的Llama-1到2024年7月推出的Llama-3，模型在架构设计、训练规模和性能表现上均有显著提升。核心升级包括：从32K词表扩展到128K，采用更高效的tiktoken分词器；上下文长度从2K增至8K；引入分组查询注意力(GQA)等新机制；训练数据从1T扩充到15T token。最新Llama-3的70B版本性能已介于ChatGPT3.5和GPT-4之间，400B多模态版本可媲美GPT-4V。

2025-08-31 23:35:24 1420

原创大模型-性能优化-训练、推理

本文总结了当前大模型训练和推理优化的关键技术及工具库。在推理优化方面，介绍了vLLM、TensorRT等主流推理引擎，以及KV Cache、FlashAttention等性能优化方法。训练优化包括模型结构优化（MQA/GQA）、工程优化（混合精度、并行训练框架）以及微调技术（LoRA等）。此外，还提出了系统级优化策略，如实时转非实时处理、工作并行化等，通过计算复用和流程优化提升整体效率。这些方法共同构成了大模型高效训练和推理的技术体系。

2025-08-30 00:15:00 875

空空如也

空空如也