AI一周大事记 | 主动式AI应用崛起，国内大模型厂商继续发力，微软AI全家桶狂飙...

本文链接：https://blog.csdn.net/u012744245/article/details/139440490

文章目录

1. 大模型持续更新

1.1 百川智能发布最新一代基座大模型 Baichuan 4

5 月 22 日，历时4个月打磨，百川智能发布最新一代基座大模型 Baichuan 4，并推出成立之后的首款AI助手“百小应”。

在这里插入图片描述

相较于前代Baichuan 3，迭代后的Baichuan 4在各项能力上均有极大提升，其中通用能力提升超过10%，数学和代码能力分别提升14%和9%，在国内权威大模型评测机构SuperCLUE的评测中，模型能力国内第一。

此外，官方表示，Baichuan 4还具备行业领先的多模态能力，即文本和图像等多种元素对齐、交互的能力，并在各大评测基准上表现优异，领先Gemini Pro、Claude3-sonnet等多模态模型。

在这里插入图片描述

在Baichuan4的基础上，百川智能将搜索技术与大模型深度融合，推出懂搜索、会提问的AI助手“百小应”。百小应不仅可以随时回答用户提出的各种问题，速读文件、整理资料、辅助创作等，还具备多轮搜索、定向搜索等搜索能力，能更精准地理解用户需求，为用户提供专业、丰富的知识和资源，还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求，给出更精准的答案。
在这里插入图片描述

百川智能还宣布开放Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、AssistantAPI四款API，所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应API，便捷高效地体验百川智能新一代模型的强大能力。

1.2 微软新开源Phi-3系列三个模型

5 月 22 日凌晨，微软 Build 2024 开发者大会在美国西雅图召开，发布了有关 AI 技术，更有关 AI 带来的新工具。

小模型 Phi-3 家族上新！

先前，微软已发布Phi-3 mini版本，支持4k、128k上下文，能够在手机上运行，同时保持与大型模型如Mixtral 8x7B和GPT-3.5相媲美的性能。

这次发布会上，微软新开源Phi-3系列的三个模型：多模态Phi-3 Vision 4.2B、两个语言模型 Phi-3 Small 7B 和 Phi-3 Medium 14B。

Phi-3 Vision 4.2B 是Phi-3家族中的第一个多模态模型，结合了文本和图像视觉功能，以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化，可用于生成数据洞见和回答问题具有图像理解能力。Phi-3 Vision 4.2B 在benchmark数据集上性能超过 Claude-3 Haiku 和 Gemini 1.0 Pro V。
Phi-3 Small 7B 支持跨操作系统及云边端运行，在性能上与 Mixtral 8x22B 和Llama 3 70B 相当，目前优于Command R+ 104B和GPT 3.5。
Phi-3 Medium 14B 支持跨操作系统及云边端运行，性能上超越了 Mistral 7B 和 Llama 3 8B。

在这里插入图片描述

1.3 面壁智能发布MMiniCPM-Llama3-V 2.5，成为全球最强端侧多模态模型！

5 月 20 日，面壁智能推出了最强端侧多模态开源模型 MiniCPM-Llama3-V 2.5。仅用8B参数，击败了OpenAI的 GPT-4V 和谷歌的 Gemini Pro，而且，其 OCR 长难图识别刷新SOTA，图像编码速度暴涨150倍，成为全球最强端侧多模态模型！
在这里插入图片描述

总结一下，MiniCPM-Llama3-V 2.5 的主要特点和优势：

多模态能力飞升：参数规模仅 8B，综合性能却超越谷歌的多模态巨无霸 Gemini Pro 与 OpenAI 的 GPT-4V；
OCR 能力 SOTA：能够精准识别长图、难图与长文本，9 倍像素更清晰，同时具备识别与推理能力；
手机端突破：首次整合 NPU 和 CPU 加速框架，对手机端多模态大模型进行系系统级加速，速度提升 150 倍；
多语种能力：支持 30 多种语言，除了中英双语，还包括法语、德语、西班牙语等等主流语言，基本覆盖了一带一路的所有国家。

在这里插入图片描述

图注：OpenCompass 榜单变化显示，小参数、高性能模型逐渐成为 AI 技术趋势

在这里插入图片描述

图注：模型雷达图，MiniCPM-Llama3-V 2.5 综合能力水平全面优秀

2. AI应用探索

2.1 GitHub Copilot扩展定制Copilot体验

作为微软生成式AI的首批重大运用，GitHub Copilot目前拥有180万付费用户。

5 月 21 日，在微软 Build 2024 开发者大会上，围绕 AI 软件开发能力，GitHub 推出首套由微软和第三方合作伙伴开发的 GitHub Copilot 扩展，允许任何人通过自然语言和更广泛的功能来提高代码开发速度。

GitHub Copilot 扩展用于打造智能的第三方生态系统。它的新增功能允许开发者、企业通过其偏好的诸如Azure、Docker、Sentry 等服务，直接在 GitHub Copilot Chat 中定制其GitHub Copilot 体验。

在这里插入图片描述

2.2 微软 Team Copilot，个人智能助理变成团队助理

5 月 21 日，微软宣布推出 Team Copilot，将 Copilot 从个人助手扩展到团队助手。Team Copilot 在团队协作中能够扮演任何角色，并扩展出 Agent 能力，成为不同领域的专家。
在这里插入图片描述

Agents 是可以实现业务流程自动化的全新自定义Copilot。每个业务流程都有待提高效率和释放新价值，并且每个流程都各不相同。

Agents 的功能包括如下：

实现长期运行的业务流程自动化
推理操作和用户输入
利用内存引入上下文
根据用户反馈进行学习
记录异常请求并寻求帮助

在这里插入图片描述

2.3 微软 Azure AI Studio 现已支持提供GPT-4o API

5 月 21 日，微软宣布 GPT-4o 在 Azure AI 上普遍可用，还引入了Cohere、Databricks、Meta、Mistral等公司以及开源社区Hugging Face的多个大模型，进一步丰富了 Azure AI 平台的模型库。

当然，由微软开发的 Phi-3 列AI小型语言模型（SLM）中的一种新型多模态模型 Phi-3 Vision 也已在 Azure 中推出。

在这里插入图片描述

2.4 微软首发 Copilot+PC

5 月 21 日，微软首发 Copilot+PC。这是一款专为 AI 设计的新型 Windows PC，将旗下 AI 助手 Copilot 全面引入了 Windows 系统，并且内置了 OpenAI 的 GPT-4o 模型。Copilot+PC 的新功能 Recall 能够回忆并查找曾在显示屏上出现过的内容，使用 Cocreator 能够实时翻译约 40 种语言，实时生成或优化 AI 图像。Copilot+ PC 还配备了 AI Agent，具备充分的实时交互能力。

在这里插入图片描述