Stable Diffusion 3发布API;微软新项目实现阿里EMO同款功能;波斯顿动力人形机器人电动化升级 | AI头条...

8645815c127caa9609f563807311f991.gif

整理 | 王启隆

出品 | AI 科技大本营(ID:rgznai100)

787102b36808ceab06bf9690c285ae6b.png

一分钟速览新闻点!

  • Stable Diffusion 3 发布 API

  • 微软亚洲研究院推出 VASA-1:AI 驱动的语音到逼真面部动画转换技术

  • Stability AI 进军音乐生成,推出 DiT 架构驱动的 Stability Audio

  • AI2 升级开放源码 OLMo 模型,引入多元化数据集及双阶段学习课程

  • 新华智云升级“新华妙笔”AI 平台,智能化变革公文写作

  • 波斯顿动力 Atlas 人形机器人电动化升级,告别液压时代

  • Mentee Robotics 推出“AI 优先”人形机器人 Menteebot 挑战市场

256e6e53f45680e833d2cb67725bebf0.png

全球 AI 要闻

Stable Diffusion 3 发布 API

Stability AI 近日宣布其 Stable Diffusion 3 和 Stable Diffusion 3 Turbo 现已在 Stability AI 开发者平台 API 上提供。此模型在最新研究中展现出与 DALL-E 3 和 Midjourney v6 等顶级文本到图像生成系统相当或更优的表现,尤其在版式设计和遵循提示方面,经人类偏好评估证实。新推出的 Multimodal Diffusion Transformer(MMDiT)架构采用独立的图像和语言权重集,增强了文本理解和拼写能力。

API 文档:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post

微软亚洲研究院推出 VASA-1:AI 驱动的语音到逼真面部动画转换技术

微软亚洲研究院开发的 VASA-1 项目创新了人工智能技术,能将单张静态图像和语音音频转化为高精度、富有表现力的对话面部动画。该技术具备精确唇音同步、复杂面部表情复现及自然头部动作模拟能力,借助 NVIDIA RTX4090 GPU 实现实时 40-45 fps 的 512×512 分辨率视频生成,延迟仅 170 毫秒。其核心技术涵盖了面部潜在空间建模、3D 辅助表示、音频条件生成控制等,演示案例中的大部分身份形象使用 StyleGAN2 或 DALL-E-3 生成。微软已公开该项目演示及相关学术论文,以供研究者和开发者深入研究和应用。

项目地址:https://www.microsoft.com/en-us/research/project/vasa-1/

论文链接:https://arxiv.org/abs/2404.10667

Stability AI 进军音乐生成,推出 DiT 架构驱动的 Stability Audio

Stability AI 近日发布了一份关于其最新技术突破——Stability Audio 的研究论文。该技术基于 Diffusion-Transformer(DiT)架构,成功实现了长达 4 分 45 秒连续、高品质音乐作品的自动化创作。研究团队通过在长时间序列数据上深度训练生成模型,使其能够捕捉和理解音乐的复杂结构和风格特征。Stability Audio 的核心在于一种高度紧凑的连续潜在表示方法,它能够在 21.5Hz 的潜在频率下运作,有效地捕捉音频信号的时间动态变化。

论文链接:https://arxiv.org/abs/2404.10301

AI2 升级开放源码 OLMo 模型,引入多元化数据集及双阶段学习课程

美国艾伦人工智能研究所(AI2)于本周三宣布对其 70 亿参数的 Open Language Model(OLMo)  1.7-7B 进行重大更新。新版 OLMo 采用了更大规模且来源多样化的 Dolma 1.7 数据集,并优化了教育式训练流程。OLMo 1.7-7B 现支持更长上下文长度,从 2,048 提升至 4,096 个 tokens,并通过改进的训练程序和架构增强性能。

开源链接:https://huggingface.co/allenai/OLMo-1.7-7B

新华智云升级“新华妙笔”AI 平台,智能化变革公文写作

新华社与博特智能携手研发的“新华妙笔”AI 公文写作平台,包括自然语言处理(NLP)、知识图谱构建与分析,实现政务公文全流程智能化辅助。该平台整合了从素材查找、结构规划、内容自动生成至审核校对的一站式服务。近期新华智云进一步优化其核心AI模型,使得“妙笔”能在短时间内输出符合规范、内容精准的高质量公文,并且具备一键润色、摘要提取、标题生成等功能,有力推动政务办公的数字化转型与智能化升级。

波斯顿动力 Atlas 人形机器人电动化升级,告别液压时代

继昨日宣布退役液压版 Atlas 机器人后,Boston Dynamics(波斯顿动力)透露其人形机器人 Atlas 已全面电动化。在展示视频中,Atlas 凭借电动马达驱动,实现了自然且流畅的动作转换,如腿部弯曲旋转以改变体位,以及头部与躯干的 180 度同步旋转。尽管行走步伐稍显急促,但明显比近年来推出的许多商业人形机器人更为连贯,甚至带有些许机器狗特有的大胆自信步伐。

Mentee Robotics 推出“AI 优先”人形机器人 Menteebot 挑战市场

初创公司 Mentee Robotics 近日正式揭晓其潜心研发两年的人形机器人原型——Menteebot。该机器人搭载了包括 OpenAI ChatGPT 所使用的基于 Transformer 的大规模语言模型(LLMs)在内的先进 AI 技术,旨在服务于家庭及仓库应用场景。Mentee Robotics 强调,Menteebot 是一款从设计之初就秉持“AI 优先”理念的产品,能够端到端完成复杂任务。相较于市场上多数产品逐渐融入 AI 的做法,Menteebot 自始至终围绕 AI 打造。

e58af800cb6dc21b75be3a2191b3458c.gif

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

7172147b3610949893adbd3c2abcf4e8.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值