实测体验Claude 3.5升级版:AI首次实现直接操控电脑!

前言

就在10月22日晚上,Anthropic发布重大升级,发布Claude 3.5 Sonnet和Claude 3.5 Haiku新版本。

新的 Claude 3.5 Sonnet 在所有指标上都优于其他模型,包括 OpenAI 的 GPT-4 和谷歌的 Gemini 1.5 Pro。

Claude 3.5 Haiku 与之前的顶级 Claude 3 Opus 性能相当,同时保持了与其前代产品相似的成本和速度,可以说是当今速度最快、最具成本效益的型号。

令人兴奋的是,此版本引入了一项新的"Computer Use(计算机使用)"功能,这意味着 Claude 现在可以控制计算机。

详情可看👇

claude3.5 demo1

例如,如果我们给它下达"创建会议通知"之类的指令,它可以自动打开 Word、创建新文档、撰写通知并保存。一切都是自动化的——人类只需给出口头指令即可。

新功能实操体验

虽然这项计算机控制功能仍处于早期阶段,但 Anthropic 已发布演示以供测试和反馈。

如果你发现前几个步骤很困难,请随意跳至步骤 4。今天主要是想分享此功能的工作原理。

  1. 需要一台运行 Windows 或 Linux 的计算机,最好能够直接访问美国服务器或者可以顺畅连接到美国网络

  2. 安装Docker(通过在线教程应该很容易找到)

  3. 为了更简单操作,只需打开终端并运行以下命令,记得将 %your_api_key% 替换成你的API密钥
    (文章后面会讲解如何获取Claude API_KEY)

官方demo仓库链接已放至文末,请自行​获取!

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
 -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
 -v $HOME/.anthropic:/home/computeruse/.anthropic \
 -p 5900:5900 \
 -p 8501:8501 \
 -p 6080:6080 \
 -p 8080:8080 \
 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
  1. 在浏览器中输入http://localhost:8080,访问演示界面。

界面左侧是聊天区,右侧是电脑屏幕。

  1. 在聊天区输入了一条指令:“使用桌面任务栏中的 LibreOffice,创建一个新电子表格,输入特斯拉过去 5 年的收入数据,并将其保存为 tesla2.ods”

  1. 收到指令后,Claude首先对其进行分析,然后对桌面进行截图

  1. 然后定位图标位置并相应地执行鼠标点击

  1. 打开编辑软件后,再次截取屏幕截图并使用键盘命令输入数据

  1. 最后完成特斯拉5年营收的数据录入并保存文件。

从这些操作中我们可以看出,Claude 的Computer Use(计算机使用)功能的工作原理是捕获屏幕,分析指令以确定鼠标和键盘操作,然后执行这些操作。

大致的流程是:

  1. 接收用户指令
  2. 捕获屏幕,分析指令,确定所需输入
  3. 执行鼠标/键盘操作
  4. 检查任务完成情况并在必要时重复

这需要 Claude 根据指令精确定位屏幕坐标并执行鼠标和键盘操作。目前只有 Claude 可以实现这一点。

该功能本质上将现有的 API 工具调用与鼠标和键盘控制实用程序集成在一起,由模型的高级屏幕分析功能提供支持。

以下是官方的演示视频:

claude demo2

Claude API_KEY获取

Claude API是Anthropic公司发布的一款强大的AI聊天机器人API,可以用于各种应用场景,如撰写小说、编写代码等,大多数时候都是面向于开发者。

用户可以通过与Claude API进行对话来获取相关信息帮助,由于Computer Use(计算机使用)功能目前更多面向于开发者,所以也需要API才能使用。

这里推荐用WildCard的API随心用服务,比较方便简单,如果有其他更好的方法,也欢迎在评论区评论!!!

WildCard API 的底层通过对接由 OpenAI官方 和 Azure OpenAI 提供的 OpenAI模型、由Amazon Bedrock提供的Anthropic Claude模型 从而实现用户无需注册 OpenAI 和 Anthropic 账号绑卡即可任意网络直连GPT-4/Claude 3。

用户可以在WildCard API 管理界面创建专属于WildCard的API Key,无需开卡,用多少充多少,如果充值过多了也可0手续费提现

Wildcard网址:https://chatgptshow.com/bewildcard.html
(复制到浏览器中打开)

然后即可通过https://api.gptsapi.net 域名下的接口访问不同功能和价位的AI模型,claude模型如下:

教程定价表可能出现未实时更新的情况,具体价格以wildcard平台api页面展示的定价表为准。

官方文档:
https://docs.anthropic.com/en/docs/build-with-claude/computer-use


Demo仓库:https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

### 关于 Claude 3.5 的使用说明与示例 Claude 3.5 是一系列多功能的人工智能模型,能够完成多样化的任务。以下是关于其具体版本的功能描述以及如何使用的指南。 #### 功能概述 Claude 3.5 Sonnet 版本具有强大的功能,适用于创建各种实用工具,例如待办事项列表、简单的计算器应用、电影推荐引擎或者文本摘要生成器等[^1]。此外,它还具备模仿特定写作风格的能力,这使得用户可以通过提供样本来让模型学习并输出相似风格的文字内容[^3]。 对于即将推出的 Claude 3.5 Haiku 版本,则计划先以纯文本处理的形式发布,在未来可能会扩展到支持图像作为输入数据类型之一[^2]。 #### 使用方法及实例 ##### 创建多用途程序 如果想要利用 Claude 3.5 来构建像待办清单这样的小型软件项目,可以遵循如下方式操作: ```python def create_todo_list(): todo_items = [] while True: item = input("请输入要添加的任务项 (输入 'done' 结束): ") if item.lower() == 'done': break todo_items.append(item) print("\n您的待办事项列表:") for index, task in enumerate(todo_items, start=1): print(f"{index}. {task}") create_todo_list() ``` 上述代码片段展示了怎样通过 Python 编程语言实现一个基础版的命令行界面待办事项管理器。 ##### 文学风格模拟练习 当希望尝试用 Claude 3.5 进行情感表达或文学创作时,按照以下流程即可达成目标: 1. **准备素材**: 首先收集一些代表性的文章段落或者是诗歌节选。 2. **启动对话框**: 打开与 Claude 的交互窗口,并给予初始指令:“让我们一起探索某位作家的独特笔触吧!” 3. **提交范例**: 将先前挑选好的例子逐一粘贴进去;记得告知对方这是用来参照的标准哦! 4. **设定界限**: 明确告诉系统何时停止接收新的参考资料——即说出那个特别的关键字“结束”。 5. **享受成果**: 接下来就可以欣赏由 AI 自动生成的作品啦! 举个实际的例子来说,假如我们想让机器学会马克·吐温那种幽默又讽刺的语言特色的话,那么可能需要给出至少两三个经典语录供其分析理解之后再请求相应类型的短篇故事创作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ztop

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值