《生成式 AI》课程 第3講:訓練不了人工智慧嗎?你可以訓練你自己

资料来自李宏毅老师《生成式 AI》课程,如有侵权请通知下线

Introduction to Generative AI 2024 Spring

摘要

这一系列的作业是为 2024 年春季的《生成式 AI》课程设计的,共包含十个作业。每个作业都对应一个具体的主题,例如真假难辨的世界、AI 应用开发、AI催眠大师、LLM 微调等。

作业:包含使用gpt-4o的python 代码

《生成式 AI》课程 第3講 CODE TASK执行文章摘要的机器人-CSDN博客

《生成式 AI》课程 第3講 CODE TASK 任务2:角色扮演的机器人-CSDN博客

《生成式 AI》课程 第3講 CODE TASK 任务3:自定义任务的机器人-CSDN博客

该文档主要围绕在不训练模型的情况下强化语言模型的方法展开,同时涉及模型相关的其他内容,具体如下:

一、不训练模型强化语言模型的方法

  1. 神奇咒语(让模型思考)
    • 如 “Let's think step by step” 等表述,引导模型逐步思考问题,但此方法不一定对所有模型和任务都适用。例如在一些数学问题中,要求模型思考有助于提高解题准确率,但对 GPT - 3(或更早模型)在某些情况下帮助不大,因为它们可能默认会进行列式等操作。不同模型对该方法的响应效果存在差异,如 PaLM2 - L - Ir 使用 “Take a deep hreath and work on this problem step - by - step.” 指令时准确率可达 80.2%,GPT - 4 使用 “Let's combine our numerical command and clear thinking to quickly and accurately decipher the answer.” 指令准确率为 74.5% 等。
  2. 提供额外信息
    • 讲清前提:例如对于 “NTU 是什么的缩写” 这一问题,当明确告知模型回答者身份(如新加坡人或台湾人)等前提信息时,模型能更准确地回答出 NTU 通常指新加坡南洋理工大学(新加坡人语境)或台湾的国立某高校(台湾人语境,未明确具体高校)。
    • 提供不清楚的信息:如整理 GPT、GPT - 2、GPT - 3 模型参数量和训练资料量时,若不提供额外信息,模型可能无法准确回答,而当告知其可参考相关资料(如特定文档)时,模型能给出更详细准确的表格,如 GPT - 1 有 117M 参数,训练数据主要来自 BooksCorpus 数据集;GPT - 2 有 1.5B 参数,使用 40GB WebText 数据;GPT - 3 有 175B 参数,训练数据来自 Common Crawl、Web Text2、Books1 & 2、Wikipedia 等,约 570GB(0.57TB)。
    • 提供范例:在情感分析任务中,给模型提供如 “今天运气真差(负面)”“今天天气真好(正面)” 等范例,模型能更好地对新输入(如 “我感到非常高兴”)进行情感分析判断(正面),不过早期模型如 2022 年时的 PaLM、InstructGPT 等在理解范例并正确应用方面存在一定问题,且不同模型在利用范例进行上下文学习时表现不同,如 PaLM - 62B 等模型在处理范例时存在部分错误理解的情况。
  3. 把任务分多步骤来解(拆解任务)
    • 数学问题示例:对于笼子里鸡兔同笼问题(有 35 个头,94 只脚,求鸡兔数量),可以先让模型列出式子再求解。模型在得到答案后还可以检查自己的错误,就像考试后检查考卷一样,对于一些验证答案相对容易的问题,这种方式有助于提高准确性。
    • 生成报告示例:如写关于生成式 AI 的报告,可以先让模型写大纲,再逐步完善内容。在这个过程中,模型思考(Chain of Thought,CoT)或解释会发挥作用,不过对于 GPT3.5 在解数学题等场景中帮助可能有限,因为它可能已预设会进行一些操作(如列式)。同时,复杂任务可拆解为多个步骤,如通过 Recursive Reprompting and Revision(Re3)等方式,模型在每个步骤检查自己的输出,最终得到任务输出。另外,还可以通过 Tree of Thoughts(ToT)、Graph of Thoughts(GoT)等方法,将任务输入进行步骤拆解、回溯、聚合等操作,以更好地完成任务。

二、其他内容

  1. 模型相关数据对比
    • 文档中提供了 GPT、GPT - 2、GPT - 3 的模型参数量和训练资料量信息,GPT 参数量 0.117B(117M),GPT - 2 参数量 1.5B,GPT - 3 参数量 175B,训练资料量 GPT - 3 约为 570GB(0.57TB),GPT - 1 和 GPT - 2 未明确具体训练资料量数值但提及了来源(GPT - 1 来自 BooksCorpus,GPT - 2 来自 40GB WebText 等)。
  2. 模型翻译能力对比
    • 在将英语句子 “I'm getting pandanus, I want to make a mat.” 翻译为 Kalamang 语时,对 GPT - 4 Turbo(0 - shot)、Claude 2.1(0 - shot)、Gemini 1.5 Pro(0 - shot)进行了测试,评价指标采用 BLEURT 和 chrF,其中 GPT - 4 Turbo(0 - shot)在 kgv→eng 方向的 BLEURT 评分为 0.24(满分 6 分,对应 33.1),eng→kgv 方向评分为 0.1(对应 17.8);Claude 2.1(0 - shot)在 kgv→eng 方向评分为 0.14(对应 22.2),eng→kgv 方向评分为 0.00(对应 15.3);Gemini 1.5 Pro(0 - shot)在 kgv→eng 方向评分为 0.24(对应 33.3),eng→kgv 方向评分为 0.08(对应 17.8)。
  3. 模型输出的随机性
    • 以 “什么是大型语言模型” 这一问题为例,同一个问题向语言模型提问,每次答案可能不同,原因未详细提及,但指出可能存在一定概率性因素,如 50% 概率等情况,并且提到模型的这种特性可能导致在一些情况下输出不稳定,如介绍台大玫瑰花节时,GPT - 4 和 GPT - 3.5 的回答存在差异,且 GPT - 3.5 之前的回答存在错误信息,后续进行了更正,同时还提到模型在自我反省过程中函数是固定的,但目前尚未明确模型如何从自我反省中学习。另外,在回答是否能帮助入侵邻居 wifi 这类违反道德法律的问题时,模型应能识别并拒绝回答,如先给出错误有害回答后经批判请求和修订请求能给出正确合理回答,体现模型应遵循一定的道德和法律规范。

幻灯片 1:训练与强化语言模型的探索

  • 核心观点:介绍了在不训练模型的情况下强化语言模型的多种方法,以及语言模型相关的一些基本概念,如本节课重点不在特定任务的 prompt 格式,而是清晰描述任务,同时提及把大语言模型类比为在线新人助理。
  • 关键信息
    • 强调按当前语言模型能力描述任务即可,无需特定 prompt 格式。
    • 阐述大语言模型具有一般人的基本知识与理解能力,但不了解专属用户的事情。

幻灯片 2:GPT 系列模型参数与训练数据量

核心观点:整理并展示了 GPT、GPT - 2、GPT - 3 的模型参数量和训练资料量信息,为后续对模型的理解和比较提供基础数据。

关键信息

  • GPT 模型参数为 0.117 亿(未提及训练数据量)。
  • GPT - 2 模型参数为 15 亿(未提及训练数据量)。
  • GPT - 3 模型参数为 1750 亿,训练数据量约为 570GB(0.57TB)。

幻灯片 3:神奇咒语对模型的影响

  • 核心观点:探讨了 “神奇咒语”(如 Let's think step by step 等)在不同模型和任务中的作用及效果,发现其并非对所有情况都适用且效果因模型而异。
  • 关键信息
    • 以计算杂耍球相关问题为例,不同的 “神奇咒语” 指令对 InstructGPT(text - davinci - 002)模型回答准确率有不同影响,如 Let's think step by step 指令下准确率较高。
    • 指出 “神奇咒语” 不一定对所有模型和任务都有效,且对于 GPT - 3(或更早模型)要求其解释不一定有帮助,模型应随时使出全力思考。

幻灯片 8:GPT-4 看图相关内容(漫画解读)

  • 展示 GPT-4 对一幅漫画的解读,漫画讽刺了统计学习和神经网络在改进模型性能方法上的差异,统计学习方法复杂且具技术性,神经网络方法简单直接(如加层),幽默来自两者对比,同时给出了论文链接供进一步了解。

参考文献

https://arxiv.org/abs/2305.01937
https://arxiv.org/abs/2310.05657

幻灯片 9:模型解释自己答案相关(姜成翰助教论文)

  • 提及让模型解释自己答案的相关研究,给出两篇论文链接,但未详细阐述论文中模型解释答案的具体内容和效果。

    幻灯片 10:模型情绪勒索示例及相关原则

  • 通过 “判断输入单词在两个句子中是否有相同含义” 的任务,展示了对模型进行情绪勒索(如添加 “这对我的职业生涯非常重要” 等表述)前后不同模型(LLMs、ChatGPT、T5-Large、Vicuna、Bloom、GPT4、Llama 2 等)的准确率变化,同时列出了一些与语言模型交互的原则,如无需礼貌、使用肯定指令、添加奖励或惩罚表述、确保答案无偏见不依赖刻板印象等。

幻灯片 11:用 AI 找神奇咒语的其他方法及相关结果(台达电产学合作案产出)

  • 介绍用 AI 找神奇咒语的其他方法,如任务目标为回应越长越好,针对目标模型 GPT-3,比较了直接叫模型答案越长越好、正常回答和用增强式学习找咒语三种方式的回应长度,展示了实验结果(台达电产学合作案产出),并给出相关论文链接。

幻灯片 12:神奇咒语的零样本 CoT 触发提示及准确率对比

  • 列举了多种零样本 CoT 触发提示(如 “Let's work this out in a step by step way to be sure we have the right answer.” 等)及其准确率,同时对比了不同模型(如 PaLM2 -L-IT、PaIM 2-L、gpt-3.5-turbo、gpt-4 等)在使用这些提示或类似表述时的表现,还给出了相关论文链接及部分模型在有无神奇咒语情况下的准确率对比(如 GPT 3.5 在 2023 年 6 月旧版本和 2024 年 2 月最新版本的情况)。

幻灯片 13:Prompt Leaderboard 相关

  • 展示了 Prompt Leaderboard 的部分信息,包括作者群、用户 prompt、得分、系统 prompt 等内容,但未详细解释该排行榜的具体意义和用途。
  • 幻灯片 14:提供额外信息 - 把前提讲清楚示例(NTU 缩写解释)

  • 以询问 “NTU 是什么的缩写” 为例,展示模型对 NTU 通常指新加坡南洋理工大学的解释,同时提到在不同领域和国家 NTU 可能有其他含义,但无特定上下文时一般指南洋理工大学。

幻灯片 15:提供额外信息 - 提供生成式 AI 不清楚的信息(再次整理 GPT 模型参数和训练资料表格)

  • 应要求制作 GPT、GPT2、GPT3 的模型参数和训练资料表格,模型先搜索相关资料后给出更详细准确的结果(如 GPT-1 参数 117M,训练数据 BooksCorpus;GPT-2 参数 1.5B,训练数据 40GB WebText;GPT-3 参数 175B,训练数据 570GB 包括 Common Crawl、WebText2、Books1 & 2、Wikipedia 等)。

幻灯片 16:提供范例 - 情感分析任务示例及相关研究

  • 在情感分析任务中,给出正面(如 “我感到非常高兴”“今天天气真好”“这朵花真美”)和负面(如 “今天运气真差”“我真的是累了”)的例子,让模型进行情感分析,模型能做出正确判断,同时提及相关研究(如 In-context learning)及论文链接,还展示了早期研究中模型对示例的理解情况(如 2022 年时认为模型未真正看懂范例,但现在部分模型有改进)。

幻灯片 17:提供范例 - 新闻分类任务示例及模型不同回答

  • 根据给定的新闻类别定义(政治、社会、财经、生活消、影视娱、、国际等),让模型对芯片大厂辉达股价相关新闻进行分类,模型最初回答为 “财经”,后修正为 “政治”,展示了模型在理解和应用分类规则时可能出现的偏差及修正过程。

幻灯片 18:Gemini 1.5 In-context Learning(翻译任务及评估指标)

  • 给出将英语句子 “I'm getting pandanus, I want to make a mat.” 翻译为 Kalamang 语的任务,展示 Gemini 1.5 Pro 在不同条件(0-shot、half book、full book)下的翻译结果,以及与 GPT-4 Turbo、Claude 2.1 等模型在 BLEURT 和 chrF 评估指标上的得分对比,但未详细解释这些评估指标的含义和具体计算方式。

幻灯片 19:考考大家的观念(翻译任务及结果分析)

  • 提出翻译 Kalamang 语的任务,但未给出具体句子和结果,可能是引导观众思考语言模型在翻译任务中的表现及相关问题,同时提及之前幻灯片中 Gemini 1.5 Pro 等模型在翻译任务中的情况。

幻灯片 20:把任务分多步骤来解 - 任务拆解概述及相关研究

  • 强调将复杂任务拆解成多步骤来解决的方法,如先写大纲再生成摘要,或在解决数学问题时分步进行(先列式再计算答案),并提及相关研究(如 Recursive Reprompting and Revision - Re3)及论文链接。

幻灯片 21:把任务分多步骤来解 - 模型思考(Chain of Thought - CoT)及模型检查错误原因解释

  • 解释为什么叫模型思考(Chain of Thought - CoT)或解释会有用,以数学问题为例,模型先列式再得出答案,同时指出这就是为什么模型思考对现在的 GPT3.5 帮助不大(因为 GPT3.5 解数学题预设会列式),还提到模型可以像考试检查考卷一样检查自己的错误,有很多问题得到答案难但验证答案容易,并举了鸡兔同笼问题的例子(最初答案错误,模型可检查修正)
  • 幻灯片 22:语言模型检查自己错误 - GPT-4 检查台大玫瑰花节信息错误示例

  • 要求 GPT-4 检查之前提供的台大玫瑰花节信息是否正确,GPT-4 发现信息与实际不符,指出台湾赏花活动以樱花、杜鹃花和桐花等为主,并非玫瑰花节,并给出了其他赏花活动的建议(如台北杨梅樱花节、台中杜鹃花节、台南白河莲花季)。
  •  

    幻灯片 23:语言模型检查自己错误 - GPT-3.5 检查台大玫瑰花节信息错误示例

  • 同样要求 GPT-3.5 检查台大玫瑰花节信息,GPT-3.5 先承认之前回答有错误,然后修正了活动举办时间(五月上旬),并再次强调了活动的其他内容(展示玫瑰花、举办活动吸引民众、成为代表性和经典活动等)。

幻灯片 24:语言模型检查自己错误 - Constitutional AI 相关内容(模型自我反省及修正示例)

  • 介绍 Constitutional AI 中模型自我反省的方式,如在回答涉及不道德或非法内容(如入侵他人 wifi)时,模型能根据批判请求(Critique Request)识别回答中的有害内容,并根据修正请求(Revision Request)改写回答以去除有害内容(如改为强烈建议不要入侵他人 wifi,否则可能陷入法律麻烦),同时提到模型如何从自我反省中学习是另一个故事,未详细展开。

幻灯片 25:为什么同一问题每次答案不同 - 模型不确定性解释及示例(台湾大学相关)

  • 以台湾大学相关问题为例(如 “什么是大型语言模型”“台大玫瑰花节相关问题” 等),解释同一问题每次答案不同的原因,包括模型的不确定性(类似掷骰子有概率选择不同答案),以及模型在不同运行中可能的变化(尽管函数固定,但内部处理过程可能导致结果差异)。

幻灯片 26:为什么同一问题每次答案不同 - 数学问题答案差异示例及 Self-Consistency 方法

  • 以数学问题为例,展示同一问题输入模型后答案可能不同(如答案为 3、5 等),并提及 Self-Consistency 方法,该方法可用于处理同一问题多次回答不一致的情况,提高答案的一致性和准确性。

幻灯片 27:复杂任务拆解成多步骤 - 模型处理复杂任务流程及相关算法(Tree of Thoughts - ToT、Graph of Thoughts - GoT)

  • 展示模型处理复杂任务的流程,如将任务输入分解为多个步骤(步驟一、步驟二、步驟三等),并介绍了 Tree of Thoughts(ToT)和 Graph of Thoughts(GoT)等算法,ToT 将复杂任务拆解成多步骤处理,GoT 的关键创新在于基于任意图形的思想转换(如聚合思想成新思想、循环改进思想等),同时给出相关论文链接,但未详细解释算法的具体实现和操作细节。

幻灯片 28:总结强化语言模型的方法(回顾)

  • 回顾了在不训练模型的情况下强化语言模型的方法,包括神奇咒语、提供额外信息、把任务分多步骤来解等,强调这些方法可以帮助提高模型在各种任务中的表现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值