【LLM】大模型能力的相关等级分类

OpenAI 提出的等级标准:

第一级:聊天机器人,具有会话语言的人工智能

第二级:推理者,解决人类水平问题的人工智能

第三级:代理,能够代表用户采取行动的人工智能

第四级:创新者,能够帮助发明的人工智能

第五级:组织者,能够完成组织工作的人工智能

Agent相关的等级分类:

清华发的Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security
链接:https://arxiv.org/abs/2401.05459
在这里插入图片描述

对应的中文翻译:

级别主要特征代表性用例
L1 - 简单步骤跟随代理通过遵循用户或开发者预定义的确切步骤完成任务。- 用户:“打开Messenger”;代理打开名为Messenger的应用程序。 - 用户:“打开我邮箱中第一封未读邮件并阅读其内容”;代理逐步执行命令。 - 用户:“打电话给Alice”;代理匹配开发者定义的模板,在通讯录中找到Alice的电话号码,并拨打号码。
L2 - 确定性任务自动化基于用户对确定性任务的描述,代理在预定义的动作空间中自动完成必要步骤。- 用户:“今天查看北京的天气”;代理自动调用带有“北京”参数的天气API并解析响应中的信息。 - 用户:“给Alice打视频电话”;代理自动打开通讯录,找到Alice的联系方式,并点击“视频聊天”。 - 用户:“告诉扫地机器人今晚打扫房间”;代理打开扫地机器人应用程序,点击“计划”,并将时间设置为今晚。
L3 - 战略任务自动化基于用户指定的任务,代理使用各种资源和工具自主规划执行步骤,并根据中间反馈迭代计划直至完成。- 用户:“告诉Alice我明天的日程安排”;代理从用户的日历和聊天记录中收集明天的日程信息,然后总结并通过Messenger发送给Alice。 - 用户:“找出最近适合旅行的城市”;代理列出几个适合旅行的城市,检查每个城市的天气,总结信息,并返回建议。 - 用户:“记录我今晚的睡眠质量”;代理在用户睡觉期间每10分钟检查一次用户是否使用手机、移动或打鼾(基于智能手机传感器和麦克风),总结信息,并生成报告。
L4 - 记忆和上下文感知代理感知用户上下文,理解用户记忆,并在适当时候主动提供个性化服务。- 代理根据用户最近的收支情况自动推荐合适的金融产品,考虑用户的个性和风险偏好。 - 代理根据对话和行为估计用户最近的焦虑水平,推荐电影/音乐以帮助放松,并根据严重程度通知用户的朋友或医生。 - 当用户在浴室跌倒时,代理检测到事件并决定是否询问用户、通知用户的家庭成员,或根据用户的年龄和身体状况寻求帮助。
L5 - 数字角色代理完全代表用户完成复杂事务,可以代表用户与其他用户或代理互动,确保安全和可靠性。- 代理自动代表用户阅读电子邮件和消息,无需用户干预即可回复问题,并将它们总结为摘要。 - 代理代表用户参加工作讨论会议,根据用户的工作日志表达意见,听取建议,并撰写会议记录。 - 代理记录用户的日常饮食和活动,私下研究或咨询专家任何异常情况,并提出健康改善建议。
### 支持 Fine-Tuning 的大型语言模型列表及其特性比较 以下是支持微调(fine-tuning)的一些主要大型语言模型(LLM),以及它们的关键特性和应用场景: #### 1. **GPT 系列** - GPT 是由 OpenAI 开发的一系列 LLM,包括 GPT-3、GPT-3.5 和最新的 GPT-4。 - 特性: - 提供 API 接口用于定制化 fine-tuning[^1]。 - 使用顺序指令方法可以显著提高其适应特定任务的能力。 - 高度灵活,适用于多种下游任务,如文本生成、分类和问答。 - 缺点:计算资源需求较高。 ```python import openai openai.api_key = 'your_api_key' response = openai.FineTune.create(training_file="file_id", model="gpt-3.5-turbo") print(response) ``` --- #### 2. **BLOOM** - BLOOM 是 BigScience 合作项目开发的一个开源多语言大模型。 - 特性: - 完全开源,允许用户自由下载并进行本地 fine-tuning[^3]。 - 支持超过 40 种语言,适合国际化应用。 - 可通过 LoRA 技术实现高效低秩适配[^2]。 - 缺点:对于某些复杂任务可能需要额外优化。 --- #### 3. **FLAN 系列** - FLAN(Fine-tuned LANguage Model)是由 Google Research 发布的一组经过强化训练的语言模型。 - 特性: - 基于 T5 架构设计,在多个领域表现出卓越性能。 - 经过大量多样化数据集的预训练,能够更好地泛化到新场景。 - 提供不同规模版本(从小型到超大规模),便于根据硬件条件选择合适型号。 - 应用案例:对话系统构建、摘要提取等。 --- #### 4. **OPT 系列** - OPT(Open Pretrained Transformer)来自 Meta AI Lab,是一个完全开放源码的大规模 transformer 模型家族。 - 特性: - 包含多达 1750亿参数的最大变体,同时也提供较小尺寸选项以便快速实验。 - 易于集成至现有框架中完成个性化调整。 - 文档详尽,社区活跃有助于解决实施过程中的各类疑问。 - 注意事项:需考虑存储空间限制因素。 --- #### 5. **Qwen 系列** - Qwen 即通义千问,阿里巴巴集团旗下的通义实验室自主研发的超大规模语言模型。 - 特性: - 不仅限于文字处理能力强大外还具备视觉理解和代码编写技能。 - 支持零样本学习与少样本学习模式切换自如。 - 对中文环境特别友好,覆盖广泛主题范围内的高质量回复表现优异。 - 实践指南链接可参阅官方文档获取更多细节说明。 --- ### 表格对比总结 | 模型名称 | 是否开源 | 主要优势 | 微调难度等级 | |----------|-----------|----------------------------------------------------------------------------------------------|--------------| | GPT | 商业闭源 | 广泛的应用生态;强大的上下文理解力 | 中 | | BLOOM | 开放 | 多语种支持;易于部署 | 低 | | FLAN | 部分公开 | 出色的任务迁移能力和鲁棒性 | 较高 | | OPT | 开放 | 资料齐全;灵活性好 | 低 | | Qwen | 条件下可用 | 强大的跨模态功能;优秀的中文处理 | 中 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值