LLMs之Agent:OpenAI Operator的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:OpenAI Operator的简介、安装和使用方法、案例应用之详细攻略

目录

OpenAI Operator的简介

1、安全和隐私:三层防护措施=用户控制+数据管理+反欺诈机制

2、未来规划

OpenAI Operator的安装和使用方法

1、安装

2、使用方法

OpenAI Operator的案例应用

旅游预订

购物

预订服务

公共服务


OpenAI Operator的简介

Operator 是 OpenAI 推出的一款 AI 代理,它能够使用自己的浏览器自主完成用户在网页上的各种任务。它通过模拟人类操作(例如:打字、点击、滚动)与网页交互,无需自定义 API 集成。目前 Operator 处于研究预览阶段,这意味着它仍存在一些局限性,并会根据用户反馈不断改进。Operator 是 OpenAI 推出的首批能够独立完成用户任务的 AI 代理之一——你只需下达指令,它就会执行。它可以处理各种重复性的浏览器任务,例如填写表格、订购商品,甚至创建表情包等,从而节省用户时间,并为企业带来新的参与机会。目前仅限美国专业版用户使用,未来计划扩展到 Plus、Team 和 Enterprise 用户,并集成到 ChatGPT 中。Operator 目前仍处于早期研究预览阶段,虽然它已经能够处理各种各样的任务,但它仍在学习和发展中,可能会犯错。例如,它目前在处理复杂界面(例如:创建幻灯片或管理日历)方面存在挑战。早期用户反馈对于提高其准确性、可靠性和安全性至关重要。Operator 是一款功能强大的 AI 代理,但仍处于发展阶段,未来潜力巨大。

  • 核心功能: Operator是一个能够自主使用浏览器完成用户指令的AI代理,可以进行网页交互(例如:输入、点击、滚动),从而执行各种网络任务。
  • 技术基础: 基于名为Computer-Using Agent (CUA)的新模型,该模型结合了GPT-4的视觉能力和强化学习的高级推理能力,能够与图形用户界面(GUI)进行交互。
  • 当前状态: 目前处于研究预览阶段,仅限美国专业版用户使用,未来计划扩展到Plus、Team和Enterprise用户,并集成到ChatGPT中。
  • 应用场景: 可以处理各种重复性的浏览器任务,例如填写表格、订购商品、创建表情包等,提升效率,拓展商业机会。
  • 发布策略: 分阶段逐步推广,先向专业版用户开放,收集反馈,再逐步扩展到其他用户群体。

官网文章https://openai.com/index/introducing-operator/

1、安全和隐私三层防护措施=用户控制+数据管理+反欺诈机制

OpenAI 将 Operator 的安全和隐私放在首位,设置了三层防护措施:

>> 用户控制:Operator 经过训练,会在关键步骤(例如:登录、支付等)主动请求用户接管,确保用户始终掌控操作流程。在用户接管模式下,Operator 不会收集或截取用户输入的信息。此外,在执行重要操作(例如:提交订单、发送邮件)前,Operator 会要求用户确认。它还会拒绝处理某些敏感任务,例如银行交易或需要高风险决策的任务(例如:求职申请)。对于特别敏感的网站(例如:邮箱或金融服务网站),Operator 需要用户密切监督其操作,以便用户及时发现潜在错误。

>> 数据管理:用户可以轻松管理数据隐私。可以通过关闭 ChatGPT 设置中的“改进所有人的模型”选项,来阻止 Operator 数据用于模型训练。用户可以在 Operator 设置的“隐私”部分一键删除所有浏览数据和注销所有网站,也可以一键删除过去的对话记录。

>> 反欺诈机制:Operator 具备防御恶意网站的能力。它能够检测并忽略隐藏的提示和恶意代码,并通过一个专门的“监控模型”来检测可疑行为,并在发现异常时暂停任务。此外,OpenAI 还采用了自动化和人工审核流程来持续识别新的威胁并快速更新安全措施。OpenAI 还明确表示,会拒绝有害请求并阻止不允许的内容,并会对违规行为进行警告甚至撤销访问权限。

2、未来规划

>> CUA API 开放:OpenAI 计划很快通过 API 公开 Operator 背后的 CUA 模型,以便开发者能够使用它来构建自己的计算机使用代理。

>> 能力增强:OpenAI 将继续改进 Operator 处理更长、更复杂工作流程的能力。

>> 用户扩展:OpenAI 计划在确保安全性和可用性之后,将 Operator 扩展到 Plus、Team 和 Enterprise 用户,并将其功能直接集成到 ChatGPT 中,从而实现无缝的实时和异步任务执行。

OpenAI Operator的安装和使用方法

1、安装

Operator 目前仅限美国专业版 ChatGPT 用户使用,访问地址:https://operator.chatgpt.com/

2、使用方法

比如让Operator自动帮你发一个微博,它首先会自动打开网页版的微博界面,其次,撰写一个微博内容,如果其中内容不合适,你可以在下方实时页面中随时接入,然后让它发送微博内容即可。

使用方法很简单:用户只需描述想要完成的任务,Operator 就会处理剩下的工作。用户可以随时接管远程浏览器的控制权。用户还可以通过添加自定义指令来个性化工作流程,例如为 Booking.com 上的航空公司设置偏好。Operator 允许用户保存提示以方便快速访问,这对于重复性任务(例如:在 Instacart 上补充库存)非常理想。类似于使用浏览器的多个标签页,用户可以通过创建新的对话来同时让 Operator 执行多个任务(例如:在 Etsy 上订购个性化珐琅杯的同时,在 Hipcamp 上预订营地)。

测试地址:https://operator.chatgpt.com/

  • 任务提交: 用户只需描述想要完成的任务,Operator即可执行。
  • 用户接管: 用户可以随时接管远程浏览器控制权。
  • 自动请求用户干预: 在需要登录、输入支付信息或解决验证码等情况下,Operator会主动请求用户干预。
  • 自定义指令: 用户可以添加自定义指令,个性化工作流程,例如设置特定网站的偏好设置。
  • 保存提示: 用户可以保存常用提示,方便重复任务的执行。
  • 多任务处理: 用户可以通过创建新的对话来同时执行多个任务。

OpenAI Operator的案例应用

可以处理各种重复性的浏览器任务,例如填写表格、订购商品、创建表情包等,提升效率,拓展商业机会。 OpenAI 还与 DoorDash、Priceline、StubHub、Thumbtack、Uber 等多家公司合作,以确保 Operator 能够满足现实世界的需求。

旅游预订

根据用户需求,在 TripAdvisor 上查找并预订评价最高的罗马一日游。

购物

订购杂货(Instacart)、订购个性化商品(Etsy)。

预订服务

预订营地(Hipcamp)、预订餐馆(OpenTable)。

公共服务

与 Stockton 市合作,简化城市服务的注册流程。

### minimind LLMs 源码解读分析 #### full_sft.py 文件解析 `full_sft.py` 是一个用于实现基于 PyTorch 的分布式混合精度语言模型全参数训练框架的脚本[^1]。该文件主要关注于如何高效地利用硬件资源,在大规模数据集上进行高效的训练。 为了支持分布式训练,此模块引入了 `torch.distributed.launch` 工具来启动多进程环境,并通过配置 GPU 设备来进行并行计算。对于优化器的选择,默认采用 AdamW 来更新权重参数;同时为了加速收敛过程以及提高数值稳定性,还应用了梯度裁剪技术防止梯度过大造成不稳定现象发生。 此外,考虑到现代深度学习任务中常见的内存瓶颈问题,这里实现了自动混合精度机制 (Automatic Mixed Precision, AMP),它允许网络中的某些部分以较低位宽的数据类型运行从而节省显存空间而不影响最终性能表现。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() with autocast(): outputs = model(inputs) loss.backward() scaler.step(optimizer) scaler.update() ``` #### eval.py 文件解析 另一方面,《eval.py》则专注于构建一个可以与用户实时互动交流的人工智能系统[^2]。具体来说就是创建了一个命令行界面(Command Line Interface, CLI), 让使用者能够输入自然语言查询语句得到相应的回复结果。 在这个过程中涉及到的关键组件包括但不限于: - **Tokenizer**: 负责将原始文本转换成 token 序列以便送入 Transformer 编解码架构处理; - **Model Inference Pipeline**: 定义好推理流程之后就可以调用预训练好的 checkpoint 进行预测操作了; - **Response Generation Logic**: 根据上下文信息动态调整生成策略确保对话连贯性逻辑一致性. ```python tokenizer = AutoTokenizer.from_pretrained('pretrained_model_path') model = AutoModelForCausalLM.from_pretrained('pretrained_model_path') input_text = "你好" inputs = tokenizer(input_text, return_tensors="pt").to(device) outputs = model.generate(**inputs, max_length=50) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值