欢迎后台👉我获取原文link😎🤝
精彩集锦:
资讯
Genie 2发布
谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
Google DeepMind 最近发布了震撼人心的新一代世界模型--Genie 2。这个基础世界模型能够根据一张图像生成可供人类或AI智能体游玩的无限3D环境。该模型标志着AI在虚拟世界构建领域的重大突破,能够模拟复杂的物理效果、角色动画、物体互动等,并且为AI的训练和评估提供了更为丰富、动态的场景。与早期的Genie 1相比,Genie 2不再局限于2D环境,而是能够生成具有多种可能性和高度交互性的3D世界。深度学习专家哈萨比斯在发布后,立即邀请马斯克参与AI游戏制作,这一举动也突显了DeepMind对该技术的自信。Genie 2的关键特点在于,它能够通过单张图像生成动态交互的3D环境,同时支持AI智能体在这些环境中进行训练和测试。其创新之处在于可以通过视频扩散技术逐帧生成世界,模拟多种动作反应,如物体交互、复杂角色动作等。
与李飞飞的World Labs相似,Genie 2也能基于图像生成交互式3D场景,但二者的技术路线不同。Genie 2更侧重于基于视频扩散的像素预测,通过用户输入来调整生成的场景,而World Labs则更多关注物理世界的建模,强调从图像估算深度与物体关系,创建更为“真实”的3D环境。
Genie 2不仅可以生成长达一分钟的一致视频世界,还能模拟各种物理效果,如水面、重力、光照等。它支持不同视角(第一人称、第三人称等),并能创建复杂的NPC交互和物理效果。此外,它对于AI智能体的训练提供了快速原型设计,允许研究人员高效测试智能体的能力。
通过Genie 2,DeepMind为AI智能体创建了丰富多样的训练任务,支持AI在未见过的环境中进行评估。未来随着技术的进一步发展,Genie 2预计将为具身智能体的训练提供重要支持,并推动向更通用AI系统的迈进。总的来说,Genie 2不仅是AI世界建模的一大进步,还可能在虚拟游戏、AI训练等多个领域引发新的革命。
推特
FishSpeech v1.5来了!多语言、零样本即时语音克隆、低延迟、开源文本转语音模型
冲啊!FishSpeech v1.5 来了!多语言、零样本即时语音克隆、低延迟、开源文本转语音模型
仅 5 亿参数训练数据:100 万小时音频支持 13 种语言低延迟(<150 毫秒)
开源模型--检查点已上线最棒的是:在 TTS Arena 中排名第二(初步结果)
向 @FishAudio 致敬--真的是开源文本转语音研究的引领者!
产品
Plot致力于让社交视频更加智能的创新工具
Plot | creative hub for social media teams
Plot是一款致力于让社交视频更加智能的创新工具,通过人工智能技术为品牌提供视频分析、简化工作流程的全面支持。借助先进的 AI算法,Plot 能快速从社交视频中提取深刻洞察,帮助品牌精准了解目标受众的兴趣、行为和偏好。这款工具不仅可以提供直观的分析结果,还支持从内容创意到发布的一站式管理,让品牌能够在繁忙的社交媒体生态中游刃有余。
Plot 的功能涵盖从智能日历规划到 AI驱动的社交聆听,无缝整合了内容管理的各个环节。通过对受众互动的实时监控和数据驱动的洞察,品牌可以快速优化策略并增强影响力。此外,Plot极大地降低了复杂的操作门槛,将繁琐的数据分析和内容管理转化为可操作的清晰步骤,让用户专注于创意表达和策略执行。无论是营销团队、内容创作者,还是小型品牌,都可以借助 Plot 实现效率提升、精准触达和更高的 ROI。
投融资
拉美初创公司Vambe转型为对话式AI后,年经常性收入大幅增长
Veeam:以20亿美元次级股权交易,估值达150亿美元

Veeam 是一家专注于数据弹性和恢复的公司,近期通过一项 20 亿美元的次级股权交易,达到了 150 亿美元的估值。该交易由 TPG 主导,其他参与者包括Temasek、Neuberger Berman Capital Solutions 等。此交易预计将在 2025 年第一季度完成。自2020 年由Insight Partners 收购以来,Veeam 的估值已经从 50亿美元增长到当前的 150 亿美元,显示出其强劲的增长势头。
根据 9月底的财报,Veeam 的年化经常性收入(ARR)已达 17 亿美元,年增长率为 18%。Veeam 的首席执行官 Anand Eswaran 表示,这次次级股权交易不仅为早期投资者和员工提供了流动性,也为公司的 IPO 打下了基础,吸引了多个战略投资者的加入。这些投资者包括私募股权和风险资本公司,以确保在未来 IPO 时有一批稳定且多样化的投资人。
投融蓓资蒴轵可信息
Veeam 最近成功完成了 20 亿美元的次级股权销售,此次交易将公司估值提升至 150 亿美元。TPG 领投Temasek、Neuberger Berman Capital Solutions 等机构也参与了此轮融资。Veeam 计划将这些资金用于扩充研发团队,并在未来寻找合适的并购机会。至今Veeam 已经完成了 5 亿美元的收购,并计划继续在 AI和数据弹性领域进行战略性扩展。
公司官网:#1 Global Leader in Data Resilience
信号
Motion Prompting: Controlling Video Generation with Motion Trajectories
https://motion-prompting.github.io/
运动控制对于生成富有表现力和引人注目的视频内容至关重要;然而,大多数现有的视频生成模型主要依靠文本提示进行控制,很难捕捉动态动作和时间合成的细微差别。为此,我们训练了一个以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作相比,这种灵活的表示可以编码任意数量的轨迹、特定对象或全局场景运动以及时间稀疏运动;由于其灵活性我们将这种调节称为运动提示。虽然用户可以直接指定稀疏轨迹,但我们还展示了如何将高级用户请求转换为详细的半密集运动提示,我们将这个过程称为运动提示扩展。我们通过各种应用展示了我们方法的多功能性包括相机和对象运动控制、与图像“交互”、运动传输和图像编辑。我们的结果展示了新兴行为,例如现实物理,表明运动提示在探索视频模型以及与未来生成世界模型交互方面的潜力。最后,我们进行定量评估,进行人体研究,并展示强大的性能。
学习
程序性能优化方法分享
https://zhuanlan.zhihu.com/p/10596277450
当前大型语言模型(LLM)通常包含数十亿到数干亿个参数,模型的初始化性能成为了端侧推理的瓶颈之一。尤其是在将这些模型从磁盘加载到内存时,要求充足的内存和更高的数据传输速度,特别是在移动端,数据的拷贝和重排操作显著影响初始化时间。本文通过对MNN推理引擎在天玑9000+平台上对不同规模qwen模型的性能测试,提出了优化LLM初始化性能的方法。
测试表明,qwen2-1.5b-int4模型的初始化时间达到8267毫秒,虽然经过int4量化减少了模型大小,但数据重排和拷贝依然是瓶颈。MNN引擎的初始化流程包括创建运行时环境、读取模型文件、重排权重数据等步骤而最耗时的部分是权重的预重排。预重排过程涉及从磁盘读取数据、重建算子、调整权重格式等多个环节,这些操作在LLM模型中占用了大量时间。针对这一瓶颈优化工作重点集中在算子重建、权重解析与重排上。
在算子重建阶段,原本需要将模型权重从文件加载到内存并与算子合并,为了减少这部分开销,优化方案提出直接跳过权重合并,改为仅保留文件路径信息,在后续的权重解析阶段再从文件读取数据。这一优化大大减少了不必要的内存拷贝。
权重解析部分,原本的流程将4bit量化权重转换为8bit再进行其他转换操作。对于LLM场景而言,这种重复转换是冗余的,因此优化方案简化了权重解析过程,避免了多次内存拷贝和格式转换,直接通过文件加载数据并进行必要的处理,避免了中间的格式转换步骤。
对于权重重排的优化,传统方法在CPU上串行执行重排操作,效率较低。针对这一问题,优化通过GPU加速重排过程,利用OpenCL并行化处理权重重排任务。新的流程直接将解析后的权重数据拷贝到OpenCL内存中并利用GPU的并行计算能力对数据进行重排,而不再进行不必要的数据格式转换。这样不仅大幅减少了计算复杂度,也大大提升了性能。
经过这些优化后,MNN推理引擎的初始化时间显著减少。测试结果表明,OpenCL后端的初始化性能提升了3.27到7倍,qwen2-1.5b-int4模型的初始化时间从8267毫秒降至1930毫秒,达到了2秒以内。这一优化使得LLM能够在移动端实现高效的初始化,为端侧推理提供了可行的技术支持。
总的来说,通过精细化的性能分析与优化,减少冗余操作、利用并行计算和异构硬件加速,成功提升了LLM初始化性能,为将来大规模LLM模型在端侧推理中的应用奠定了基础。
本期AI产品合集:
Plot
Plot是一款致力于让社交视频更加智能的创新工具,通过人工智能技术为品牌提供视频分析、简化工作流程的全面支持。借助先进的 AI算法,Plot 能快速从社交视频中提取深刻洞察,帮助品牌精准了解目标受众的兴趣、行为和偏好。这款工具不仅可以提供直观的分析结果,还支持从内容创意到发布的一站式管理,让品牌能够在繁忙的社交媒体生态中游刃有余。
Plot 的功能涵盖从智能日历规划到 AI驱动的社交聆听,无缝整合了内容管理的各个环节。通过对受众互动的实时监控和数据驱动的洞察,品牌可以快速优化策略并增强影响力。此外,Plot极大地降低了复杂的操作门槛,将繁琐的数据分析和内容管理转化为可操作的清晰步骤,让用户专注于创意表达和策略执行。无论是营销团队、内容创作者,还是小型品牌,都可以借助 Plot 实现效率提升、精准触达和更高的 ROI。
Digma 是一款在运行时分析应用程序执行情况并识别关键性能问题的工具。Digma 由一个分析后端(在容器上本地运行)和一个作为主要前端的 IDE 插件组成(目前仅限 Jetbrains)。该插件提供与性能、查询问题、瓶颈扩展问题等相关的代码级洞察。
Digma 的工作原理
Digma 的后端从您的应用程序接收 OTEL 数据(在本地运行应用程序时自动收集),对其进行分析,并识别代码执行中的特定问题。所有数据都在本地处理,以支持合规性要求,无需更改代码。Digma 摄像头配置文件数据来自多个环境,包括开发、测试、准备、生产等。
Digma 背后的故事
Digma认为,除非应用程序分析是连续且自动的(就像测试一样),否则它不会有效。目前有许多可观察性工具,但它们都需要积极和手动地花费时间、注意力和专业知识才能获得结果。当发生可怕的事情时,它们只会被动使用,这并不奇怪。可观察性的最终目标不应该是创建仪表板,而应该是改进我们的应用程序和代码。
感谢阅读,如果你喜欢GOAT的文章,欢迎一键三连哦(≧∀≦)ゞ~~