
# 01 产品动态 #
1.1 大语言模型
【Google】发布Gemini-1.5-Pro-002和Gemini-1.5-Flash-002模型
Google发布了基于Gemini1.5的两个新模型,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。Gemini 1.5系列模型专为在各种文本、代码和多模式任务中实现一般性能而设计。例如,Gemini 模型可用于合成1000页PDF中的信息、回答有关包含超过1万行代码的存储库的问题、录制长达一小时的视频并从中创建有用的内容等等。
相比其他1.5系列模型的其他版本,Pro和Flash系列主要有以下几个特点:
✔ 1.5 Pro价格降低>50%(提示的输入和输出<128K);
✔ 1.5 Flash的速率限制提高了2倍,1.5 Pro的速率限制提高了约3倍;
✔ 输出速度提高2倍,延迟降低3倍;
✔ 新版的1.5 Pro和Flash整体素质提高,数学、长上下文和视觉上有大幅增加,但是更新后模型的默认输出长度比以前的模型短约5-20%。
【Meta】发布轻量级模型和多模态模型
在Meta Connect大会上,Meta发布了基于Llama 3.2的四款模型,分别是轻量级模型1B和3B,多模态模型11B和90B。
▪ 轻量级模型1B和3B
这两款是Meta最轻量、最高效的模型,可以在移动设备和边缘设备上运行。在多语言文本生成和工具调用能力上表现优异。这些模型赋予开发者能力,能够在设备端构建个性化、自主的应用,且具有较强的隐私保护性,确保数据不会离开设备。例如,应用程序可以帮助总结最近收到的10条消息,提取关键的待办事项,并通过工具调用直接发送日历邀请以安排后续会议。
▪ 多模型模型11B和90B
这两款模型支持图像推理场景应用,比如文档级别的理解(包括图表和图形)、图像字幕生成,以及视觉定位任务(如基于自然语言描述在图像中准确定位物体)。例如,用户可以询问上一年中哪个月份他们的小企业销售最佳,模型能基于现有的图表推理并迅速提供答案。模型也可以通过地图推理,回答如哪段徒步路线将变得更加陡峭,或地图上标记的特定小径距离等问题。11B和90B模型还能提取图像细节、理解场景,并生成简洁的描述,用作图像的字幕。
1.2 图像大模型
【Sketch】发布Smart Animate新功能
Sketch(矢量绘图应用,主要用于网页、图标以及界面设计)发布Smart Animate新功能,主要包括动画过渡,智能识别图层变化、自定义动画参数、动画控制等具体功能,用于在设原型计中加入流畅的动画效果。通过Smart Animate,用户可以在多个画板之间对相同名称的图层进行动画过渡,使设计变得更加生动和具有互动性。
1.3 影音大模型
【Deepgram】推出了AI语音代理API
Deepgram推出了AI语音代理API,该API依赖于快速的语音识别和语音合成模型,支持实时的语音理解、推理和对话生成。同时,可与不同的大语言模型如Llama 3、GPT-4集成,借助生成式AI进行复杂任务的对话管理、任务执行和信息检索。
该API用户定位在企业和开发人员,通过创建语音代理,应用于客户支持、医疗语音转录、媒体转录、智能订单处理等场景。
【Luma AI 】发布视频开发模型Dream Machine API
Luma AI首发视频生成模型Dream Machine,该模型可以通过文字或图片生成视频。同时,API对全球免费开放,每个用户每月有30次免费生成的额度。
Dream Machine API 提供了Keyframes规则(在动画序列中定义关键帧)和Camera Motion(一种将时间压缩的拍摄技术)功能,Keyframes可以通过图片创建炫目的过渡效果,Camera Motion可以通过简单的指令控制复杂的场景,生成电影级的视觉效果。相比其他视频生成模型,Dream Machine在提供不同风格和题材的视频的基础上,视频更具有电影感,连贯性和艺术感更强。
【Runway】推出用于生成式AI视频服务的API
Runway推出视频生成模型的API,该API适用于开发者和公司将Runway的生成式AI模型集成到第三方平台、应用程序和服务中。
目前,Runway的API仅支持一个模型:Gen-3 Alpha Turbo,这是Runway旗舰模型Gen-3 Alpha的一个速度更快但功能较弱的版本。API提供两个套餐:Build计划和Enterprise计划。Build计划主要面向个人和小团队,而Enterprise计划则针对大公司和企业用户。定价采用积分制,每个积分价格为1美分,生成一秒钟视频需要5个积分。这意味着生成一秒视频的成本大约为5美分。
Runway对API的使用有一些特殊要求。任何使用Runway API的界面,需在显著位置展示“Powered by Runway”的标识,并链接至Runway官网。
1.4 开发工具
【OpenAI】发布多语言大规模多任务语言理解(MMMLU)数据集
OpenAI在Hugging Face(大模型共享和使用的开源平台)上发布了多语言大规模多任务语言理解(MMMLU)数据集。该数据数据集包含一系列问题,涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研究领域中需要常识、推理、解决问题和理解能力的任务中的表现。MMMLU的创建反映了OpenAI对测量模型实际能力的关注,尤其是在NLP研究中代表性不足的语言,纳入多种语言可确保模型在使用英语时有效,并能胜任全球使用的其他语言。
1.5 AI设备
【Meta】发布Orion AR眼镜
在Meta Connect大会上,Mata发布了Orion AR眼镜,该AR眼镜能与Meta自研的肌电手环相适配,拥有手部跟踪、眼部跟踪、头部追踪等多种交互方式,用户戴上Orion可以刷网页、看短剧,甚至玩一些简单的3D游戏。现阶段的Orion 眼镜仅用作演示和内部开发套件,大约仅生产1000副,不对外正式开售。
【Snap】发布第五代Spectacles AR眼镜
Snap公司发布了第五代SpectaclesAR眼镜,新版Spectacles升级了显示效果和电池续航时间。与前几代一样,这款产品尚未商业销售,而是面向开发者开放使用。开发者需通过Snap的Lens Studio申请,并支付99美元/月的费用,至少租赁一年。
新版本Spectacles AR眼镜在视场角(FOV)达到了46度,相较于上一代的26.3度大幅提升,用户能够看到更宽广的增强现实内容。此外,眼镜采用的波导显示器每度显示37个像素,显示的清晰度提升了约25%。
# 02 市场动态 #
【Open AI】高层发生变动
近期,OpenAI首席技术官Mira Murati、首席研究官 Bob McGrew和Post Training研究副总裁Barret Zoph 宣布将离开公司,随后,Open AI 创始人兼CEO Sam Altman宣布了新的人事任命。
这些人事变动发生在OpenAI重组其非营利性结构,有可能转变为盈利性公司的背景下,重组可能会使首席执行官Sam Altman获得公司股权。
# 03 其他动态 #
🔸 Open AI上线了高级语音模式,新版增加了自定义指令、记忆功能、五种新声音以及改进的口音,改进了某些外国语言的对话速度、流畅度和口音。
🔸 NotebookLM升级,可进行音频和视频文件总结,支持上传谷歌云盘、网站和Youtube连接,生成的音频播客现在支持分享。
🔸 Artificial Analysis的图片模型评分网站新增一个名为蓝莓(Blueberry)的图像生成模型,评分高于FLUX、Ideogram和Midjourney。

1229

被折叠的 条评论
为什么被折叠?



