【AIGC半月报】AIGC大模型启元:2024.02(下)

(1) Gemini 1.5 Pro(谷歌新一代多模态大模型)

2024.02.16 谷歌新一代多模态大模型Gemini 1.5 Pro,在性能上超越OpenAI的GPT-4 Turbo,堪称业界最强大模型。

推荐文章: “打假”Sora,谷歌Gemini 1.5 Pro第一波评测出炉|甲子光年
官网链接: https://openai.com/sora

(2) Sora(文本生成视频大模型)

2024.02.16 Sora文本生成视频的大模型。它所展现出来的能力几乎可以“碾压”目前全球能实现文本生成视频的大模型 包 括 Runway、Pika、Stable Video Diffusion等20多个产品。
  用户仅需输入简短一句话,Sora就可生成一段长达60秒的视频,远远超过市面上同类型级别的AI视频生成时长。在此之前,AI视频模型生成时长几乎在10秒以内,而“明星模型” Runway和Pika等也仅有3到4秒。

推荐文章: Sora到底有多强? | 微软最新Sora综述
官网链接: Gemma Open Models

(3) BEHAVIOR-1K(李飞飞团队—具身智能基准)

2024.02.27 来自斯坦福、得克萨斯大学奥斯汀分校等大学的研究团队推出了一项以人为本的机器人技术综合模拟基准——BEHAVIOR-1K。
  BEHAVIOR-1K 包括两个部分,由 “您希望机器人为您做什么?”这一问题的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义,以 50 个场景(房屋、花园、餐厅、办公室等)为基础,其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON,这是一个模拟环境,通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。
  实验表明,BEHAVIOR-1K 中的活动是长视距的,并且依赖于复杂的操作技能,这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,研究团队进行了一项初步研究,将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。
  研究团队希望 BEHAVIOR-1K 以人为本的特性、多样性和现实性能使其在具身智能和机器人学习研究中发挥重要作用。

推荐文章: stanford Behavior-1k——包含一千种日常任务的具身智能benchmark
官网链接: /

(4) EMO(阿里生成式AI模型)

2024.02.28 生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。

推荐文章: 阿里EMO模型,一张照片就能造谣
官网链接: https://humanaigc.github.io/emote-portrait-alive/

(5) Playground v2.5(文生图大模型)

2024.02.28 Playground在去年发布Playground v2.0之后再次开源新的文生图模型Playground v2.5。相比上一个版本,Playground v2.5在美学质量,颜色和对比度,多尺度生成以及以人为中心的细节处理有比较大的提升。

推荐文章: 超过Midjourney v5.2的开源文生图大模型Playground v2.5来了
官网链接: https://playground.com/

(6) VSP-LLM(唇语识别)

2024.02.28 一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。

推荐文章: VSP-LLM:可通过观察视频中人的嘴型来识别唇语
官网链接: https://github.com/sally-sh/vsp-llm

(7) Ideogram1.0 (文生图大模型)

2024.02.29 Ideogram发布了最新的Ideogram1.0图像生成模型,该模型具有强大的文字生成能力和提示词理解能力。Ideogram1.0在文本渲染准确性方面实现了飞跃。

推荐文章:Ideogram 1.0图像生成模型发布 文字生成能力更强大了
官网链接:https://top.aibase.com/tool/ideogram-ai

(8) LTX studio(生成式AI电影制作平台)

2024.02.29 生成式AI电影制作平台—LTX Studio,用户只需要输入文本就能生成超25秒的微电影视频,同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制。

推荐文章: 效果比Sora惊艳,著名AI平台大动作!文本生成超25秒视频,带背景音乐、转场等效果
官网链接: https://ltx.studio

  • 8
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值