阿里巴巴Qwen团队发布AI模型，可操控PC和手机

最新推荐文章于 2025-04-08 12:25:55 发布

新加坡内哥谈技术

最新推荐文章于 2025-04-08 12:25:55 发布

阅读量1.3k

点赞数 5

文章标签：人工智能深度学习语言模型学习

本文链接：https://blog.csdn.net/2301_79342058/article/details/145395971

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。

1月27日，阿里巴巴 Qwen团队 正式发布了一系列 全新AI模型——Qwen2.5-VL，具备 文本解析、图像分析、视频理解 以及 远程操控PC和手机 的能力，类似于OpenAI的 Operator。https://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md

Qwen2.5-VL：能看、能听、还能动

根据官方介绍，Qwen2.5-VL不仅能读取文件、解析视频，还能 数图像中的物体，甚至可以 远程控制电脑和手机。

🔹 超越国际大厂？
阿里巴巴的Qwen团队声称，Qwen2.5-VL在多个评测中 超越了OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash，尤其在 视频理解、数学运算、文档解析和问答能力 上表现突出。

🔹 强大的视觉理解
Qwen2.5-VL可分析 图表、发票、表格，甚至能“理解” 长达数小时的视频内容。此外，它还能 识别影视IP和各类商品，暗示该模型可能曾使用 受版权保护的内容 进行训练。

🔹 AI变身“遥控助手”
最令人瞩目的是Qwen2.5-VL的 跨设备控制能力。
👉 在 PC端，该模型可以操作Linux系统，比如切换标签页（虽然当前还不够智能，无法完成复杂任务）。
👉 在 手机端，一位Hugging Face的技术负责人分享了一段视频，展示 Qwen2.5-VL自动打开Booking.com应用并预订机票（从重庆到北京）。

这意味着，AI未来可能不仅仅是 对话助手，更可能成为 真正的智能操作员，帮助用户完成各种任务！