大模型半月报第3期|Open AI发布o1推理模型;Cohere升级Command R和Command R+模型

# 01 产品动态 #

 1.1 大语言模型 

【Cohere】升级Command R和Command R+ 模型版本,重点升级了检索增强生成能力

Cohere 公司发布了最新版本的Command R和 Command R+模型,这款模型为企业级模型,应用于商业应用场景。新版模型在编码、数学、推理和延迟方面进行了显著提升,重点提升了处理检索增强生成 (RAG) 和多语言支持能力。

Command R模型新版本的吞吐量提高了约50%,延迟降低了20%,同时将服务模型所需的硬件占用空间减少了一半。Command R+模型新版本的性能也有所提升,与上一版本相比,command-r-plus-08-2024吞吐量提高了约50%,延迟降低了25%,同时硬件占用空间保持不变。

【Open AI】发布o1模型,具备解决复杂任务推理的能力

OpenAI发布了人工智能模型o1,即此前一直宣传的Strawberry草莓模型,o1模型具备复杂任务推理的能力,可解决比以前的科学、编码和数学模型更难的问题,在物理、化学和生物学方面可表现出博士生相当的研究能力。例如,在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解答了 13% 的问题,而o1模型正确解答了83%的问题。

本次发布的模型包括o1、o1-preview和o1-mini三个版本,其中o1-preview和o1-mini已经向付费用户和API用户提供,o1模型目前尚未公开。

【Jina AI】发布Jina ColBERT v2,一款多语言的晚期交互信息检索模型

Jina AI发布Jina ColBERT v2版本,该模型是一个多语言的晚期交互(Late Interaction)信息检索模型,基于BERT架构开发,旨在优化查询和文档之间的匹配和排序,可在搜索引擎、推荐系统、问答系统等应用中实现高效、精确的信息检索和排序。与原版 ColBERT v2相比,性能提高了6.5%,与之前的jina-colbert-v1-en 相比,提升了5.4%。

ColBERT是一种专门用于信息检索的模型,名字来源于 “Contextualized Late Interaction over BERT”(基于BERT的上下文化后期交互),该模型结合了BERT模型强大的语言理解能力,并在此基础上引入了一种新颖的“后期交互”机制,因此可实现高效和精准的搜索。

【Jina AI】发布两款小语言模型,可将初始代码转换为轻量级标记语言

Jina AI发布两款小语言模型,分别是Reader-LM-0.5B和Reader-LM-1.5B,支持最长 256K令牌的上下文长度,可将原始HTML (初始代码)转换为干净的 Markdown(轻量级标记语言),可用于HTML转 Markdown的优化任务。得益于模型的紧凑性,能够在资源有限的环境中高效运行,因此这两款小语言模型的性能表现超过了一些大语言模型,占用空间也仅为大LLM模型的1/50。

【NotebookLM】推出 “Audio Overview” 功能,可将文档转换为播客对话

Google推出的NotebookLM新增了一项名为“Audio Overview” 的功能,允许用户将上传的文档内容转换为音频对话。这一功能通过两位AI主持人进行“深入探讨”,将上传的文档总结为一段对话,帮助用户以听觉方式理解信息。用户可以下载生成的音频,方便随时随地收听。

主要特点:

✔ 用户上传文档并点击生成按钮,两位AI主持人将启动一个类似对话的讨论,深入剖析文档中的主要内容。他们会总结内容,探讨文档中的主题,并尝试建立不同概念之间的联系,为用户提供一个对话式的学习体验。

✔ NotebookLM 支持用户上传的各种资料来源,并能根据这些内容生成音频概述。用户可以用该工具来快速理解复杂的文档或研究报告。

✔ 用户可以生成并下载音频文件,将其随身携带,方便在上下班途中或其他闲暇时间收听,提升学习和信息处理的灵活性。

 1.2 图像大模型 

【Mistral】发布了其首个多模态模型Pixtral 12B,用于处理图像和文本任务

法国AI初创公司Mistral推出了其首个多模态模型Pixtral 12B,该模型具有120亿参数,可以处理图像和文本任务,适用于图像标注、物体计数等任务。与其他多模态模型(如 Anthropic的Claude系列和OpenAI的GPT-4o)类似。

Pixtral 12B基于Mistral的文本模型Nemo 12B开发,能够通过URL或base64编码的图像回答与图像相关的问题。理论上可以执行图像字幕生成、物体计数等任务。

✔ 图像标注:模型能够根据图片生成简洁而准确的描述。

✔ 物体计数:用户可以通过模型快速获得图像中物体的数量。

✔ 生成任务:适用于需要图像和文本结合的复杂 AI 任务,如视觉问答、图像生成等。

Pixtral 12B可以通过GitHub和Hugging Face下载,支持在Apache 2.0许可下进行微调和使用。此外,Mistral开发者关系负责人Sophia Yang表示,Pixtral 12B将在Mistral的聊天机器人和 API服务平台Le Chat和Le Plateforme上提供测试。

 1.3 影音大模型 

【Kyutai】开源语音模型Moshi,可进行实时语音对话

Kyutai开源语音模型Moshi,一款可以进行实时语音对话的文本语音模型。该模型采用多流架构,支持实时流式推理,能够在生成语音的同时进行语音识别和文本到语音的转换。具体来说,该模型的理论延迟为160ms,实际为200ms,远低于自然对话中的几秒钟延迟,因此能够同时处理语音和文本信息,支持复杂的对话动态,包括同时说话和打断。

【Runway】发布更加丰富的视频编辑功能

目前视频生成模型在人物精细动作以及场景一致性保持方面的问题还很大,Runway此次发布视频编辑功能在一定程度上解决了这一问题,该功能可以使得增加特效或者局部改变内容变得简单易操作。在大模型生成的视频中,通过使用该功能可以转变视频的风格、增加特效,例如可以改变一段视频的天气、季节、甚至地理风貌,也可以把视频变成2D 插画、粘土风格、3D游戏建模。

【Suno】推出可以改变歌曲风格的功能

Suno推出Covers功能,无论是简单的歌唱录音,还是一首完整制作的歌曲,都可以使用该功能在保留原有旋律的基础上转变成其他曲风。新功能已在测试版推出,用户可以尝试体验不同的音乐风格,现已向所有 Pro/Premier订阅用户开放,前100次免费试用。

 1.4 开发工具 

【Anthropic】推出Enterprise企业计划

Anthropic官宣正式推出Claude for Enterprise这一面向企业客户的产品/计划。其中提到,Anthropic在社交媒体以及更新文章中重点强调了Claude企业版的三点更新:50万tokens的上下文窗口+更大的使用量、GitHub集成、以及重中之重——企业级安全功能。

✔ 50万tokens的上下文窗口+更大的使用量:根据Anthropic官方的说法,50万tokens相当于数百份销售记录、几十份100+页的文档或中型代码库,当前Claude系列模型提供200K的上下文,OpenAI的GPT系列模型为128K。对于企业而言,需要处理的数据量是巨大的,尤其是在处理跨部门、跨项目的大型文档和代码库时,传统的上下文窗口往往显得不够用。在这种情况下,50万tokens的上下文窗口保证Claude能够处理和理解海量信息,而不需要频繁地分段或拆解数据。

✔ GitHub集成功能:允许Claude同步企业的GitHub仓库,从而直接在Claude的上下文中直接引用代码。无论是新功能开发、调试代码问题,还是帮助新成员快速上手项目,Claude都可以提供代码层面的建议。

✔ 企业级安全功能:这次更新中强调的企业级安全功能包括单点登录、基于角色的访问控制、审计日志、跨域身份管理系统。

【Replit】发布Agent AI应用开发助手,零基础编程用户也能开发程序

Replit发布了Replit Age,旨在帮助用户从零开始构建软件项目,该产品可用于开发应用程序,通过简单的语言描述想要的应用,AI就会自动处理复杂的步骤,比如设置开发环境、编写代码、甚至部署到网上。即使用于不会编程,也可以快速创建应用,并且可以随时查看和修改AI生成的代码,从而学习编程的过程。

# 02 市场动态 #

【SSI】SSI 融资10亿美金

SSI(超级安全智能公司,Safe Superintelligence)融资10亿美金,该公司由OpenAI前联合创始人伊利亚·萨茨克维尔(Ilya Sutskever)创立,估值50亿美元。

参与此轮融资的风险投资机构包括安德森·霍洛维茨(Andreessen Horowitz)、红杉资本、DST Global和SV Angel等。根据SSI的规划,这笔资金将用于引进计算力和吸引顶尖人才,用于开发产品。

【World Labs】World Labs 融资2.3亿美元

World Labs 融资2.3亿美元,该公司的创办人是被誉为AI教母的李飞飞,公司的估值超过10亿美元。此次融资来自Andreessen Horowitz(美国风险投资公司)、NEA(美国风险投资公司)和Radical Ventures(加拿大风险投资公司)等投资方,共两轮募集。

World Labs计划在2025年推出首款产品,其目标是开发能够理解三维世界并与之交互的 AI 模型,即“大型世界模型”,主要为艺术家、设计师、开发者和工程师等提供服务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值