20240220 每日AI必读资讯

最新推荐文章于 2024-09-16 13:46:43 发布

程序员的店小二

最新推荐文章于 2024-09-16 13:46:43 发布

阅读量356

点赞数 9

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_46163918/article/details/136180282

版权

🚀 ElevenLabs宣布将上线AI音效功能：可给Sora生成的视频配音
- Sora生成的视频十分惊艳但缺少配音。
- ElevenLabs将推出AI音效功能，用户输入文字描述即可生成配音。
- 首批试用申请地址:
🔗 ElevenLabs Sound Effects Waitlist

🌍Stability AI推出文生图模型Stable Cascade，仅限于非商用
- Stable Cascade基于Würstchen架构。
- 非商用许可证，仅限于非商业用途
- 压缩潜在空间，训练推理效率更高。
- 项目地址：https://top.aibase.com/tool/stable-cascade

📈 图像分割模型Mask2Former：同时支持语义、实例和全景分割
- 优化后，在图像分割任务中取得卓越性能，包括多尺度高分辨率特征。
- 性能分析表明在多个任务上表现优越，但在资源受限设备上FPS可能受限。
- 架构包括特征提取网络、像素解码器和Transformer解码器，局部化注意力提升性能。

🔍苹果推出AI动画设计工具Keyframer：可将静态图片转为动画
- 巨大潜力，但面临挑战。
- Keyframer结合自然语言提示和LLMs代码生成。
- 提供可能性，支持设计迭代，多用户群体参与动画创作。
- 论文地址：https://arxiv.org/pdf/2402.06071.pdf

🌍Large World Model (LWM) 探索
- 介绍了百万Token的通用世界大模型，旨在理解长视频和超长文本。
- LWM在100万个令牌的上下文中超越GPT-4V和Gemini Pro的检索精度。
- 特色能力包括长视频理解、高精度事实检索和多格式内容生成。
🔗 https://largeworldmodel.github.io
🔗 https://github.com/LargeWorldModel/LWM
🔗 https://blink.csdn.net/details/1646043