1、大模型是什么?
定义:大模型(Large Language Model, LLM)是基于海量数据训练、拥有百亿甚至万亿参数的人工智能模型,能够理解和生成人类语言。
代表模型:如OpenAI的GPT-4、Google的Gemini、Meta的Llama 3、DeepSeek-R1等。
2、关键概念解释
2.1 Agent(智能体)
定义:能独立感知环境、分析信息并执行任务的程序实体,常基于大模型驱动。
比如近期火出圈的Manus,就采用了多智能体协同机制。
一、Agent在Prompt处理中的核心作用
- 意图解析与任务拆解
Agent通过预设的规则或大模型自身能力,将用户的原始输入(如模糊需求、口语化表达)转化为结构化的Prompt。例如:- 电商客服场景:用户输入“订单#12345为什么还没到?”会被Agent自动提取订单号、调用物流API获取信息,并生成包含上下文的新Prompt(如“用户订单#12345物流延迟3天,需安抚并补偿”),再交由大模型生成回复。
- 复杂推理任务:用户提问“如何降低企业碳排放?”可能触发Agent分步骤拆解为“数据收集→排放源分析→减排方案制定”,每一步调用工具(如数据库、计算模型)辅助生成详细Prompt。
- 上下文增强与知识补充
Agent通过检索增强生成(RAG)技术,从本地知识库或实时数据源中检索相关信息,注入原始Prompt中。例如:- 用户提问“2024年诺贝尔经济学奖得主是谁?”时,Agent会先调用搜索引擎或企业数据库获取最新结果,再生成包含准确数据的Prompt(如“根据检索结果,2024年得主为A和B,研究领域为X”),避免模型因知识过时产生“幻觉”。
- 多模态与工具调用整合
对于需要结合图像、语音或API交互的任务,Agent会将多模态输入转换为统一指令。例如:- 医疗影像分析:用户上传CT扫描图后,Agent调用OCR识别文字、分割图像区域,并生成多模态Prompt(如“图像显示肺部结节直径3cm,患者主诉咳嗽,请生成诊断建议”)。
- 代码生成:用户输入“用Python写一个爬虫”时,Agent自动附加代码规范、依赖库版本等约束条件,提升生成代码的可用性。
二、典型Agent架构与工作流程
国内大模型应用通常采用以下两类Agent设计模式:
-
单Agent分层架构
用户输入 → Agent(意图识别 → 工具调用 → 上下文构建) → 结构化Prompt → 大模型 → 输出优化 → 用户
- 代表案例:阿里通义千问的翻译Agent,通过动态调整源语言识别、术语库匹配、结果自检等步骤优化翻译质量。
-
多Agent协作系统
用户输入 → 路由Agent(任务分类) → 专业Agent集群(如数据分析Agent、文案生成Agent) → 结果整合 → 用户
- 代表案例:字节跳动“扣子”平台通过角色分工(如“数据分析师Agent”“产品经理Agent”)协作完成复杂需求。
三、Agent技术的优势与挑战
优势:
- 降低幻觉风险:通过RAG补充实时/私有数据,减少模型虚构内容。
- 提升可控性:利用Prompt模板(如CO-STAR框架)约束输出格式与风格,适应企业合规要求。
- 扩展能力边界:整合外部工具(如计算器、API),弥补大模型在数学、实时查询等领域的短板。
挑战:
- 开发成本高:需协调Prompt工程、工具集成、流程编排等多环节,对开发者技术要求较高。
- 长上下文处理效率低:部分Agent系统因频繁调用外部资源导致响应延迟,需优化缓存与并行计算。
- 动态环境适应不足:对未预见的用户需求或工具故障缺乏鲁棒性,需结合强化学习持续迭代。
四、国内大模型厂商的实践方向
- 标准化Agent开发框架
- 如LangChain、阿里云PAI等平台提供预制模板,支持快速构建基于Prompt的Agent应用。
- 垂直领域深度优化
- 金融、医疗等行业通过领域知识库与专用工具链(如风控模型、医学术语校验器)提升Agent专业性。
- 多模态交互增强
- 百度文心、科大讯飞等厂商将语音、图像Agent与文本模型整合,实现“输入-处理-输出”全链路多模态支持。
五、Agent小结
当前国内大模型生态中,Agent已成为优化Prompt输入的核心组件,尤其在复杂任务场景下,其通过意图解析、知识增强、工具调用等机制显著提升了模型输出的准确性与实用性。未来随着多模态融合与自动化Prompt工程的发展,Agent将更深度融入大模型应用架构,推动AI从“对话工具”向“任务执行伙伴”演进。个人觉得国内在Agent优化方面做得好一些,因为国内大模型在使用体验上会让用户觉得更符合日常交流。
2.2 Prompt(提示词)
一、Prompt的定义
- 概念:Prompt是用户向模型提供的「输入信息」,可以是问题、指令、示例、上下文等。
- 作用:通过Prompt,模型能明确任务目标(如回答问题、生成文本、翻译等),并基于其内部知识和训练数据产生输出。
二、Prompt的作用
- 引导模型方向:决定模型输出的类型(如“写一首诗” vs “解释科学原理”)。
- 控制输出细节:通过添加限制(如“用简单英语回答”或“总结成三句话”),细化结果。
- 上下文补充:提供背景信息(如“假设你是历史学家…”),让模型调整推理逻辑。
三、Prompt的结构
Prompt通常包含以下元素:
- 任务指令:明确要求模型做什么(例如:“翻译以下句子”、“生成故事开头”)。
- 输入内容:需要处理的具体信息(例如:“将‘Hello’翻译成中文”)。
- 约束条件:限制输出的格式、风格、长度等(例如:“使用口语化表达,不超过100字”)。
- 上下文示例:提供范例辅助模型理解(例如:“类似这样:…”)。
四、示例对比
- 简单Prompt:“法国首都是哪里?” → 模型可能直接回答:“巴黎。”
- 复杂Prompt:“请用比喻的方式,生动描述巴黎作为法国首都的特点,控制在三句话内。” → 模型会生成更具文学性的回答。
五、Prompt Engineering(提示工程)
- 重要性:设计高效的Prompt能显著提升模型性能,减少无效输出。
- 技巧
- 清晰明确:避免歧义,直接说明任务(如“总结这篇文章”)。
- 结构化:分步骤或分点提问(如“第一步…第二步…”)。
- 关键词引导:使用特定术语触发模型知识(如“用Python代码实现…”)。
- 迭代优化:根据输出结果调整Prompt,逐步逼近目标。
举例:
原始提问(低效Prompt)
“给我讲讲过拟合。”
问题分析:
模糊不清:未指定回答深度(科普级 or 技术级)、应用场景(理论解释 or 代码示例)。
缺乏结构:模型可能输出泛泛而谈的定义,无法满足具体需求。
优化后提问(高效Prompt)
你是一位机器学习工程师,需要用通俗语言向初学者解释过拟合问题,要求:
1. 定义与比喻:用生活化的类比(如学生死记硬背例题)解释过拟合的核心概念;
2. 代码示例:用Python和Scikit-learn展示一个过拟合的直观案例(如多项式回归),需包含:
- 数据集生成(make_regression)
- 不同复杂度模型的拟合对比(线性模型 vs 高阶多项式)
- 可视化代码(Matplotlib绘制训练/测试误差曲线)
3. 解决方案:分点列出3种常见解决方法(如正则化、交叉验证),每点用一句话说明原理;
4. 注意事项:提醒初学者在实际项目中如何检测和避免过拟合。
prompt设计解析:
- 角色限定:明确输出风格(“通俗语言”“面向初学者”)。
- 结构化指令:分步骤要求定义、代码、解决方案、注意事项。
- 关键词引导:指定工具库(Scikit-learn)、函数(make_regression)、可视化要求。
- 场景适配:兼顾理论解释与实践案例,适合学习场景。
六、注意事项
- 模型依赖性:不同模型对Prompt的敏感度可能不同(例如GPT-4比早期版本更擅长理解复杂指令)。
- 避免过度引导:过于详细的Prompt可能限制模型的创造力,需平衡“控制”与“灵活性”。
七、prompt小结
总之,Prompt是用户与大型模型交互的核心工具,合理设计它能最大化模型潜力,广泛应用于聊天机器人、内容生成、数据分析等领域。
2.3 Token(标记、语素)
一、 定义
Token 是大模型处理文本的最小单元,类似于人类语言中的“词块”。它不严格等于单词或汉字,而是通过算法将文本拆分为模型可理解的片段。
二、核心作用
- 信息编码:将自然语言转换为模型可计算的数字序列。
- 上下文管理:模型通过Token序列长度(如GPT-4的128k tokens)限制输入输出范围。
- 成本计算:API调用费用通常按输入+输出的总Token数计费。
三、 主流分词算法
算法 | 代表模型 | 特点 |
---|---|---|
Byte-Pair Encoding (BPE) | GPT系列 | 通过合并高频字符对生成词表,平衡效率与覆盖性 |
WordPiece | BERT | 优先拆分低频词为子词,适合处理未登录词 |
Unigram | XLNet | 基于概率模型选择最优分词方案,灵活性高 |
四、BPE分词过程(以GPT为例)
- 基础单元:初始词表包含所有单字符(如256个ASCII字符)。
- 合并规则:统计语料中相邻字符对的频率,合并最高频的字符对。
- 迭代优化:重复合并直到达到预设词表大小(如GPT-4词表约10万Token)。
示例:
- 原始词:
"low", "lower", "newest"
- 合并步骤:
- 初始字符:
l, o, w, e, r, n, s, t
- 第一次合并:
"lo"
→ 高频出现 - 最终分词:
["low", "low+er", "new+est"]
- 初始字符:
五、 中英文分词差异
语言 | 典型Token长度 | 分词挑战 |
---|---|---|
英文 | 1词≈1-2 Tokens | 复合词处理(如"antidisestablishmentarianism") |
中文 | 1字≈1.5-3 Tokens | 未登录词(如网络新词“栓Q”)、语义歧义(“南京市长江大桥”) |
中文分词示例:
- 句子:
"深度学习需要大量算力"
- 可能的分词结果:
["深", "度", "学", "习", "需", "要", "大", "量", "算", "力"]
(10 Tokens)
或
["深度", "学习", "需要", "大量", "算力"]
(5 Tokens) - 实际分词依赖训练语料的统计规律。
六、上下文窗口(Context Window)
- 定义:模型单次处理的最大Token数(输入+输出)。
- 典型值:
- GPT-4 Turbo:128k Tokens(约9.6万汉字)
- Claude 3:200k Tokens
- 开源Llama 3:8k Tokens
七、Token效率影响输出质量
- 长文本截断:超出窗口的Token会被丢弃,可能导致关键信息丢失。
- 位置衰减:Transformer对远端Token的关注度下降,影响长文本连贯性。
八、 客服对话优化
- 问题:用户输入冗长,包含无关信息。
- 方案:
- 用Token计数器检测输入长度。
- 自动删除重复语句(如“我真的非常非常着急!!!”→“紧急”)。
- 将原始输入从500 Tokens压缩至150 Tokens,再输入模型。
九、学术论文解析
- 挑战:单篇论文超模型上下文窗口。
- 解决:
- 按章节分块(摘要、方法、实验)。
- 对各块生成关键词Token列表(如“Transformer架构”“对比实验”)。
- 综合关键词生成全局总结。
十、Token小结
Token是大模型理解与生成语言的“原子单位”,其处理机制直接影响模型性能、成本和用户体验。掌握以下要点可显著提升应用效率:
- 分词规律:理解BPE/WordPiece的合并逻辑,预判文本Token数。
- 成本控制:通过压缩、分块、约束输出降低Token消耗。
- 上下文优化:在窗口限制内保留核心信息,避免远端衰减。
实际应用中,可通过tiktoken
等工具实时监控Token使用,结合业务需求动态调整策略。
十一、Token外记
可能大家在网上见到这种情况,明明是三个r的strawberry但大模型回答的却是两个,出现这个问题就和token有关,前面已经讲到,大型语言模型在处理文本时,会先将输入内容分割成 Token(最小语义单元)。所以分词策略可能影响字母计数,假设某模型的分词逻辑为:
将连续重复字母(如 rr
)合并为 一个Token(标记为 rr
)
当用户提问
strawberry有几个r?
时:
分词结果为:['s', 't', 'r', 'a', 'w', 'b', 'e', 'rr', 'y']
系统统计 'r'
的出现次数,仅识别 r
和 rr
中的单个 r
→ 得出错误结论 2个r
关键矛盾点:
字符级处理 vs 子词处理:字母计数问题 需精确到单字符级别;但部分模型可能优先使用子词(Subword)分词(例如 Byte Pair Encoding),导致连续字符被压缩处理。
一个可以计算输入文本的Token的网站
Tiktokenizer
在该网站上用户可以计算出给定输入文本所对应的正确的 token 数量,还可以选择不同的模型查看他们各自采用的token分词方式,下面的数字即为每个token在模型中对应的编号。
2.4 语料库
定义: 语料库(Corpus)是结构化或非结构化语言数据的有组织集合,涵盖文本、语音、图像、视频等多模态信息,用于训练和评估人工智能系统(尤其是自然语言处理模型)。
一、语料库的主要类型
通用文本数据
来源:涵盖网页内容(如Common Crawl爬取的2500亿网页)、书籍、对话记录等
作用:增强语言建模能力,帮助模型掌握基础语法、常识与跨领域知识。例如GPT系列模型约60%的预训练数据来自通用文本。
专用文本数据
-
多语种数据:
包含中、英、法等多语言文本,通过语义关联提升跨语言对话能力。例如DeepSeek模型的多语数据占比达15%,显著提升其国际商务场景表现。 -
科学数据:
包括arXiv论文、数学网页及教材,需特殊处理公式、蛋白质序列等符号。如Meta的Galactica模型通过科学语料实现化学分子式生成。 -
代码数据:
来自GitHub、Stack Exchange等平台,占比约10%-20%。结构化代码训练可提升逻辑推理能力,例如Manus智能体调用Python脚本生成报告的能力源于代码语料训练。
二、语料预处理关键技术
-
清洗与过滤
质量过滤:使用正则表达式和分类模型剔除低质内容(如广告、重复段落),Common Crawl原始数据经清洗后保留率仅3%-5%。
敏感内容过滤:采用关键词匹配+语义检测删除暴力、歧视性内容,确保符合伦理标准。
数据去重:通过MinHash算法消除重复文本,降低存储与计算成本。 -
工具链支持
开源框架如Data-Juicer提供100+核心算子,支持质量评估、实体标注等流程。其“数据菜谱”功能可一键生成医疗、金融等领域的专用语料处理流水线。
三、语料库构建新趋势
动态学习机制
传统静态语料正向实时更新转型,例如“书生”语料库通过API接入新闻网站,实现疫情政策等时效性内容动态纳入。
多模态融合
除文本外,整合图像描述(如LAION-5B数据集)、音频转写文本,提升模型跨模态理解能力。Google的Gemini模型即依赖此类多模态语料。
生态协同建设
中国正推动“语料银行”模式,通过区块链技术实现数据确权与交易。欧洲语言资源协调机构的元数据标准已被20国采纳,促进跨机构共享。
四、应用场景与优化方向
场景适配
预训练阶段:通用语料占比约70%,专用语料针对性补充(如代码数据提升工具调用能力)。
微调阶段:采用领域精标语料(如法律文书、医学病例)进行指令调优,使模型适应具体任务。
技术挑战
隐私合规:需平衡数据效用与个人信息保护,欧盟《AI法案》要求训练数据可追溯。
长尾覆盖:低资源语言(如藏语)和小众领域(如非遗技艺)数据仍匮乏,需分布式采集技术突破。
五、典型案例
DeepSeek模型:其语料库包含45%中文数据,涵盖知乎问答、专利文献等特色内容,支撑本土化应用优势。
Data-Juicer工具:支持开发者自定义清洗规则,已应用于10+国产大模型训练,数据处理效率提升3倍。
未来,随着“语料即服务”(DaaS)模式兴起,高质量语料库将成为AI竞争的战略资源,推动大模型从“通才”向“领域专家”演进。
2.5 大模型幻觉
大模型幻觉(AI Hallucination)是指大语言模型在生成内容时,产生看似合理但实际与事实、逻辑或用户意图相矛盾的错误信息。这种现象本质上是模型基于概率生成机制在缺乏真实理解时的系统性偏差,具体可分为以下类型及典型案例:
事实性幻觉
定义:生成内容与可验证的现实事实不符。
示例:
问“第一个登月者是谁?”,模型回答“Charles Lindbergh在1951年登月”。实际正确答案是尼尔·阿姆斯特朗(Neil Armstrong)。
声称“爱因斯坦发明了电话(实际是亚历山大·贝尔)”或“黄河发源于青藏高原”(实际发源于巴颜喀拉山)。
忠实性幻觉
定义:生成内容偏离用户指令或上下文逻辑。
示例:
用户要求“总结2023年10月新闻”,模型却输出2006年的事件。
指令要求生成“咖啡机的负面评价”,模型却描述“咖啡机操作便捷”。
荒谬性输出
定义:生成完全违背物理规律或常识的内容。
示例:
声称“太阳从西边升起”或“水在100℃结冰”。
多模态模型中生成违反物理规律的视频(如物体无支撑悬浮)。
虚构信源与数据陷阱
定义:编造不存在的研究文献或精确数据。
示例:
生成学术论文时引用5篇文献,其中4篇为虚构。
声称某研究“提升28%准确率”,但无具体出处。
二、产生原因
数据缺陷:
训练数据存在错误、偏见或时效性问题。例如,模型因数据中“加拿大”与“多伦多”高频共现,误将多伦多当作加拿大首都。
训练局限性:
过拟合:依赖局部数据模式(如医学模型过度推广某类疾病疗法)。
对齐偏差:强化学习(RLHF)过度优化流畅性而牺牲真实性。
生成机制缺陷:
随机性抽样:概率驱动导致错误路径放大(如Top-p采样策略)。
缺乏验证回路:生成过程中无实时知识库校验。
三、应对策略
知识增强:引入外部知识图谱(如Wikidata)或检索增强生成(RAG)技术。
动态约束:在解码阶段加入逻辑规则(如禁止矛盾表述“已解决”与“未解决”同时出现)。
对抗训练:构建含陷阱问题的数据集,优化模型抗干扰能力。
用户验证:通过双重检查(如谷歌Gemini的争议内容高亮)或人工信源追踪。
四、争议与启示
部分学者认为幻觉可能成为创造力的源泉,例如文学创作中的虚构情节或新研究方向的启发。然而,在金融、法律等高危领域,幻觉可能引发误导性决策。因此,用户需保持批判性思维,结合专业验证使用AI生成内容。
通过理解大模型幻觉的机制与局限,我们能在利用其高效生产力的同时,规避潜在风险。