Agent 如何更有用

先看这篇会更连贯 Agent的记忆能力

学习来源

LLM的基础能力

1、复杂任务的规划和分解

2、遵循复杂指令

3、自主使用工具

4、减少幻觉

一两个人就能开发的有用AI

AI的优势:长文本的阅读理解能力、广阔的知识面。

1、导游:GPT-4知道很多著名景点,还能做行程规划。

2、企业ERP助手:对 需求描述能力、架构设计能力、技术表达能力 有很强的要求。What - Why - How 有条理的讲清楚自己做的东西。

3、大模型采集数据:本质是利用了大模型阅读速度比人快的特点。不需要定制开发。

4、手机语音助手:RPA(机器人流程自动化) 比如腾讯的AppAgent,可以自动学习操作 Telegram、Youtube、Gmail、Lightroom等多款app。RPA的主要难点是 学习使用app的过程。「app的各种功能、操作序列的记录等」

5、会议和生活记录器

Zoom:包括将会议语音内容实时转录成文字;根据实时转录的文字,将会议所讲过的内容做总结;根据实时转录的文字,用户提出问题,大模型给出问题的回答。

Rewind.AI 的录屏和录音吊坠:本地化算力或者隐私计算是解决隐私问题的必由之路

解决复杂任务和使用工具

记忆是有趣和有用 AI 都必须具备的公共能力。

情感是有趣 AI 需要的。

解决复杂任务和使用工具更多是有用 AI 所需的能力。

(1)CoT:先想后说

(2)复杂任务的规划和分解

Agent-FLAN论文 可知,这一步相对于检索、理解要更难,是模型基础能力问题,需要依靠 scaling law。另外从系统角度思考,与用户交互式解决复杂任务是很重要的,AI遇到困难要及时求助

(3)自动调用多种工具分步求解

a.按照流程调用工具的方法是 few-shot(在prompt中给AI提供几个样例任务的执行过程)

b.让AI学会使用上万种工具:方法一是SFT、pretrain;方法二是RAG+prompt

减少幻觉的工程方法

消除幻觉的根本方法是 scaling law,靠基模进步。但也有一些工程方法来缓解:

(1)事实性校验

大模型生成 - RAG(搜索引擎、向量数据库、倒排索引、知识图谱等)找出与回答内容匹配的原始语料 - 前两步一起送给大模型,让LLM判断回答与原始语料是否相符

这种方法只能发现 编造事实类的幻觉,不能发现答非所问类的幻觉。

(2)多次生成

类似投票的思想,多次生成同一问题的回答,然后一起给到大模型,让大模型挑出最一致的结果。

这种方法可以解决偶发的幻觉问题,但不能解决系统性偏差。

开源模型的护城河

  • 微调:基于微调而非prompt构建更像一个人的agent
  • 推理优化:降低成本和延迟
  • 多模态:语音、图片、视频理解和生成
  • 基于Embedding的记忆:例如LongGPT
  • 流式推理(例:多个Agent语音聊天):基于KV Cache的工作记忆和流式推理
  • 本地化部署:数据安全需求的to B场景
  • 终端设备:有隐私需求的个人终端设备
  • 机器人

未记录的

成本
数字生命
去中心化
详见 AI Agent更有趣还是更有用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值