Datawhale AI 夏令营:大模型应用开发笔记(一)

大模型的定义与演化

大模型(Large Language Model, LLM)是通过训练大量参数的神经网络,模拟和预测人类语言中的词序列及其规律的一类模型。这些模型通过对海量数据的学习,具备了处理复杂语言任务的能力,并且随着规模的扩展,显示出一些小模型无法具备的“涌现能力”。

语言模型的四代演化

  1. 统计语言模型(Statistical Language Model, SLM):基于马尔可夫假设,通过𝑛-gram模型预测语言序列中的下一个词或缺失词的概率。

  2. 神经语言模型(Neural Language Model, NLM):引入神经网络,使用循环神经网络(RNN)等结构来学习上下文相关的词表示,代表工作如word2vec。

  3. 预训练语言模型(Pre-trained Language Model, PLM):通过双向LSTM或Transformer架构,在大量无标注数据上进行预训练,然后在特定任务上进行微调,代表工作如ELMo、BERT、GPT-1/2。

  4. 大语言模型(Large Language Model, LLM):基于“扩展法则”,通过增加模型参数或训练数据量,提升了下游任务的性能,具备了小模型不具备的“涌现能力”,代表工作包括GPT-3、ChatGPT、Claude、Llama等。

大模型训练过程

构建大模型通常包括三个主要阶段:预训练、监督微调以及基于人类反馈的强化学习对齐。这些阶段共同作用,确保模型在广泛任务中具备良好的表现和人类对齐度。

1. 预训练(Pretraining)

目标:通过大量无标注数据训练模型,建立丰富的知识库,形成一个强大的初始参数“起点”。

  • 方法演变:从计算机视觉领域的ImageNet训练方法发展到自然语言处理(NLP)中的word2vec、ELMo、BERT和GPT系列,逐步形成了“预训练-微调”范式。
  • 当前趋势:GPT系列的成功确立了“解码器架构+预测下一个词”的主流预训练策略。随着模型规模的扩大,如Llama系列的1T到15T token预训练,数据量和算力需求显著增加。
  • 关键步骤:数据收集与清洗、确保数据质量与多样性,使用大规模计算资源(如数千块GPU)进行长时间训练。
2. 有监督微调(Supervised Fine-tuning, SFT)

目标:通过成对的任务输入与输出数据微调模型,使其更适合具体任务的解决。

  • 方法:在大量标注数据(几十万到百万条)上进行微调,模型学习通过指令解答问题的能力。
  • 功能:激活模型潜在能力,提升模型的指令遵循能力,从而应对多种下游任务。
  • 数据需求:微调所需数据量相对较少,但数据质量至关重要,高质量少量数据亦可实现良好效果。
3. 基于人类反馈的强化学习对齐(Reinforcement Learning from Human Feedback, RLHF)

目标:通过人类反馈确保模型的输出与人类价值观和期望一致。

  • 核心:利用专家对模型输出的偏好排序数据训练奖励模型,使模型在强化学习过程中优化其输出质量。
  • 替代方法:如直接偏好优化(DPO)等简化对齐算法,不再依赖复杂的强化学习过程,而通过类似SFT的方法达成对齐效果。

大模型的开源与闭源

  • 开源模型:代表如Meta AI等,促进学术交流和技术创新,推动AI社区的发展。
  • 闭源模型:代表如OpenAI、百度等,通过专有服务保持商业竞争力,同时保障数据和服务的安全性。

大模型应用开发的策略

  1. Prompt工程:通过精心设计提示直接调教大模型。

    • 上下文学习(In-Context Learning, ICL):通过任务示例提高模型的适应性。
    • 思维链提示(Chain-of-Thought, CoT):引入逻辑推理链条,增强模型的复杂问题解决能力。
  2. Embedding辅助:将知识转为Embedding向量存储,通过检索外部知识库扩展模型能力,减少幻觉现象。

  3. 参数高效微调(Parameter-efficient Fine-tuning):通过训练少量参数实现轻量化微调,提升模型在特定任务上的能力,同时节省算力

Gradio组件

Gradio是一个用于构建机器学习模型的交互界面的工具,分为三大组件:

  1. 输入输出组件:用于获取和展示内容,如Textbox、Image等。
  2. 布局组件:用于规划和排列界面布局,如Column、Row等。推荐使用gradio.Blocks()构建复杂的交互界面。
  3. 控制组件:用于触发函数调用,如Button、ClearButton等。

Gradio的设计理念是将输入输出组件与布局组件分开,以便创建结构化、灵活的用户界面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值