1.产品发布
1.1视觉Mamba来了:速度提升2.8倍,内存能省87%
发布日期:2024.1.19
视觉Mamba来了:速度提升2.8倍,内存能省87% | 机器之心 (jiqizhixin.com)
主要内容:华中科技大学、地平线和智源研究院的研究人员提出了名为Vision Mamba(Vim)的新模型,相关论文已在arXiv上发表。该论文介绍了Vision Mamba块,结合了双向SSM用于数据依赖的全局视觉上下文建模以及位置嵌入用于位置感知视觉识别。据介绍,当对分辨率为1248×1248的图像进行批量推理时,Vim比成熟的视觉Transformer模型DeiT快2.8倍,并节省了86.8%的GPU内存。Mamba是去年12月推出的一种新架构,在语言任务上能够匹配Transformer性能,具有线性复杂度和5倍推理吞吐量。
论文地址:https://arxiv.org/pdf/2401.09417.pdf
1.2百度:发布视频生成模型UniVG
发布日期:2024.1.19
百度UniVG视频AI人工智能生成模型:重新定义视频AI精确一致性生成的方式-喜好儿网
主要内容:百度团队发布了视频生成模型UniVG,这是一种统一模式视频生成系统,可以接受文本和图像的各种组合作为输入。该团队重新将系统内视频生成模型的多个任务划分为高自由度生成和低自由度生成两类,并针对不同自由度采用不同的生成方式。
项目主页:UniVG
论文地址:https://arxiv.org/pdf/2401.09084.pdf
1.3腾讯发布视频生成模型VideoCrafter2
发布日期:2024.1.19
VideoCrafter2 - 腾讯推出的高质量视频生成模型 | AI工具集 (ai-bot.cn)
主要内容:腾讯AI实验室发布了视频生成模型VideoCrafter2,并在arXiv上发表了相关论文。该模型研究了利用低质量视频和合成高质量图像来获得高质量视频的可行性。通过使用高质量图像对空间模块进行微调,在不降低运动质量的情况下,将分布转移到更高质量的视频上,克服了高质量视频扩散模型的数据限制。
项目主页:VideoCrafter2
论文地址:https://arxiv.org/pdf/2401.09084.pdf
Demo地址:https://discord.gg/RQENrunu92
2.技术更新
2.1 AI视频可控性高能进化!复刻《黑客帝国》经典镜头只需笔刷
发布日期:2024.1.19
主要内容:Gen-2的运动笔刷升级为"多头运动笔刷"(Multi Motion Brush),增加了功能但价格不变,适用于所有用户。该工具可以处理复杂图片和各种风格的图像,让静止物体产生各自独立的动态效果。新功能提高了可控性,用户可以调整每个笔刷的参数,如方向、模糊度和光照等。使用步骤包括上传图片、选择笔刷涂抹、调整参数,最后生成视频。新功能允许更精细的控制,使每片雪花或其他元素能够朝不同方向移动。网友们已经用这个工具创造了多种有趣效果,如复刻《黑客帝国》场景和模拟冲浪感觉等。
体验地址:Runway - Advancing creativity with artificial intelligence.
3.商业动态
3.1 AIGC时代的「数字生命计划」已启动!
发布日期:2024.1.19
主要内容:该内容主要讨论了数字生命的概念,即通过将人类的意识上传到智能终端,以数据的形式永久存储,使人类的思想意识得以脱离躯体而独立存在。近期新加坡南洋理工,商汤科技,上海 AI 实验室共同推出的一项同名项目「Digital Life Project」,让曾经遥远不及的科幻情节照进了现实。该项目通过 AI 技术和动作合成技术,智能衍生剧情,创造出能够在数字环境中模拟交互的自主 3D 虚拟角色。这些角色不仅能进行对话,还拥有自己的人格,能够感知所处的不同社交环境,做出相对应的身体动作来表达情感和反应。同时,超越 2D 虚拟沙盘的 3D 场景建设和能够交互的动作设计更给人们带来了沉浸式的体验。
论文链接:https://arxiv.org/abs/2312.04547
项目主页:Digital Life Project