支付宝开放平台-开发者社区——AI 日报「10 月 28 日」

1  谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临

新智元|阅读原文

科幻中的贾维斯,已经离我们不远了。

几天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光标完成复杂任务,足以惊掉下巴。刚刚,Information独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。

谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。

无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。不仅如此,OpenAI内部已有了AI智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。

包括苹果在内,预计在明年发布跨多个APP屏幕识别能力。最新迭代的Ferret-UI 2,就是通用UI模型。可见,「Computer use」已经成为科技大厂们,重点发力的下一个战场。

2   纯血鸿蒙被海外热议:速度惊人,能力强悍,“求海外版”!

量子位|阅读原文

纯血版鸿蒙,已经扬名海外了!

在Hacker News上,有人惊叹华为从底层开始做出了全新的微内核操作系统,只用了如此短的时间。

首先,基于华为盘古大模型构建的全新AI助手小艺变得更加智能——知识量突破了万亿tokens,已经可以实现23类场景的记忆感知,任务成功率超过90%。它可以根据极具个性化的需求,设计出专属旅行攻略。而且自动附上了门票链接,不用搜素就能一键直达。不只是AI,从编程框架到OS内核,HarmonyOS NEXT都焕然一新。新构建的纯血版鸿蒙系统,在流畅度提升30%的同时,续航增加了近一个小时。

3   人类已知最大素数诞生:2¹³⁶²⁷⁹⁸⁴¹−1!前英伟达员工数千GPU爆肝算出,高达4100万位

新智元|阅读原文

人类已知最大素数纪录,刚刚被打破!答案就是——2136279841-1。这个素数是英伟达GPU发现的。

一位「梅森素数猎手」、英伟达前员工,通过自己收集的大量高性能显卡,找到了这个4100万位的最大素数。比起2018年发现的上一个梅森素数,它整整长出1600万位。

这也是史上首个使用GPU找到的梅森素数。这个素数,终结了个人电脑在发现最大素数上的28年统治。(GIMPS项目之前的所有发现,都是由相对简陋的个人计算机中的CPU完成的。)

所以,发现最大素数,究竟有什么用呢?

帝国理工学院教授数学系教授Kevin Buzzard告诉我们:没有。

是的,这个发现目前完全没有实际应用,但很多数学研究起初都是如此。不过,这次做出这一发现的英伟达前员工,还是获得了一点小小的好处——3000美元的奖励。

4   靠AI,2年时间大涨4倍!扒一扒你每天都用的这只小绿鸟

量子位|阅读原文

OpenAI还是个亏成无底洞的销金窟,但借力OpenAI输出的语言学习软件,已经赚得起飞了。

没错,就是你可能也很熟悉的“愤怒小鸟”——劝人学习语言一套一套的多邻国

从8月5日的阶段性低点上涨至今,多邻国的股价接连创下新高,巅峰时期达296.51美元高位。2年时间大涨4倍,目前总市值逼近127亿美元。

2021年,早在大模型还没火的时候,多邻国就开始与OpenAI接触、合作,在应用中集成了GPT-3的能力。去年,又顺应时事地推出了一款由GPT-4支持的新产品DuolingoMax。9月底,多邻国刚在年度会议上宣布,应用程序内新增AI视频通话(AI Video Call)及冒险(Adventure)功能——就是用户可以通过与AI角色聊天和玩游戏来学习语言。“旨在模拟自然对话,并提供个性化的交互式练习环境”。多邻国最开始拥抱AI属性的时候,AI 2.0的浪潮甚至还没有掀起来。

财报显示,今年Q2,多邻国月活跃用户数1亿360万,比去年同期增长40%;日活跃用户(DAUs)3410万,比去年同期增长59%;季度末付费用户总数达到800万,比去年同期增长52%。

在这一波以年为单位的用户数据增长中,AI在其中发挥的魔力不可谓不大。

对此,你怎么看?

详情查看参与互动赢蚂蚁周边


支付宝开放平台-开发者社区

 「AGI 之路」 内容库

欢迎你的投稿!戳我进群


支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

### 关于 OmniparserV2 的使用指南 OmniparserV2 是一种强大的数据解析工具,旨在处理多种类型的输入源并将其转换成结构化数据。尽管当前参考资料未直接提及 OmniparserV2 的具体实现细节[^1],可以基于一般的数据解析框架提供指导。 #### 安装与环境准备 为了开始使用 OmniparserV2,需先安装必要的依赖库和设置工作环境。通常这涉及下载官方发布的软件包或通过版本控制系统克隆项目仓库。对于大多数现代解析器而言,Python 或 Java 环境可能是必需的,因为这些语言提供了丰富的第三方库支持来简化开发过程。 ```bash pip install omniparser-v2 # 假设存在 pip 可用的 Python 包 ``` #### 配置文件设定 类似于其他复杂的应用程序,合理配置是成功运行的关键之一。假设 OmniparserV2 支持 XML 格式的配置,则可以在 `conf/` 文件夹下创建名为 `parser-config.xml` 的文件来进行参数定义: ```xml <configuration> <!-- 输入源路径 --> <inputPath>/path/to/input/files</inputPath> <!-- 输出目标位置 --> <outputDirectory>/usr/local/bigdata/testdata/nifioutputtest</outputDirectory> <!-- 解析模式选项 --> <parseMode>CSV</parseMode> <!-- 更多自定义属性... --> </configuration> ``` 此部分借鉴了 NIFI 中 GetFile 和 PutFile 处理器间通信的概念,其中指定了用于存储输出结果的具体目录。 #### 编写脚本启动解析流程 编写简单的命令行界面 (CLI) 脚本来触发整个解析操作是非常有帮助的。下面给出了一段伪代码作为参考,在实际部署时应替换为真实 API 函数调用: ```python import omniparser_v2 as opv2 def main(): config_file = "conf/parser-config.xml" parser_instance = opv2.Parser(config=config_file) try: parsed_data = parser_instance.run() print(f"Parsing completed successfully! Results saved at {parsed_data['output_path']}") except Exception as e: print(f"Error occurred during parsing: {str(e)}") if __name__ == "__main__": main() ``` 这段代码展示了如何加载外部配置并通过实例化的 Parser 对象执行核心业务逻辑——即读取原始数据并按照指定规则进行转化。 #### 志记录机制集成 考虑到调试需求及后期维护便利性,建议引入志管理组件如 Log4J2 来跟踪应用程序的行为轨迹。参照 Web 工程中的做法,可在 web 应用上下文中加入如下片段以便初始化监听器和服务端点之间的交互[^3]: ```xml <context-param> <param-name>log4jConfiguration</param-name> <param-value>/WEB-INF/conf/log4j2.xml</param-value> </context-param> <listener> <listener-class>org.apache.logging.log4j.web.Log4jServletContextListener</listener-class> </listener> ``` 以上内容综合考虑了几种不同类型技术栈的特点,试图构建一个较为完整的介绍体系给初次接触该领域的人士带来启发。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值