AI新工具(20240226) YOLOv9 - 新型实时对象检测模型;Genie - Google发布的从互联网视频中学习的基础世界模型

YOLOv9 - 新型实时对象检测模型

YOLOv9是基于深度学习的一种快速、准确的对象检测算法。其主要亮点在于能够在保持较高检测精度的同时,实现快速的检测速度,适合在实时应用中使用。

https://github.com/WongKinYiu/yolov9

在这里插入图片描述

Genie - Google发布的从互联网视频中学习的基础世界模型

Genie

Genie是一个基于互联网视频训练的基础世界模型,能够通过单张图片提示生成无尽种类的可玩(可通过行动控制)世界,这些图片可以是合成图像、照片乃至素描。Genie的独特之处在于其能够只通过观看互联网视频学习精细的控制能力,而这些视频通常不包含关于正在执行的动作的标签,甚至不明确哪部分图像应该被控制。尽管如此,Genie不仅学会了哪些观察部分通常是可控的,还推断出了在生成环境中一致的多种潜在动作。

https://sites.google.com/view/genie-2024/

在这里插入图片描述

MeloTTS - 支持多语言的高品质文本转语音库,支持中英文混合及实时CPU推理。

MeloTTS是一个由MyShell.ai开发的高质量、支持多语言的文本转语音库。简单来说,它就像一个多才多艺的朗读家,能够用不同的语言和口音把文字“读”出来,听起来就像是真人在说话一样。它支持的语言包括英语(还细分为美式、英式、印度式和澳大利亚式英语)、西班牙语、法语、中文(还能混合英文)、日语和韩语等。

https://github.com/myshell-ai/MeloTTS

在这里插入图片描述

FakeSoraAPI - 用于SoraWebui的API,可以从文本生成视频,并提供了在线演示。

FakeSoraAPI是一个为SoraWebui设计的API,其主要功能是基于文本生成视频。它提供了一个简单的方式来将文本内容转换为视频内容,非常适用于希望通过程序自动化生成视频的开发者或者内容创作者。

https://github.com/SoraWebui/FakeSoraAPI

在这里插入图片描述

verbalate - 视频翻译软件,提供完整的语音克隆和口型同步功能

Verbalate是一款先进的视频和音频翻译软件,可以帮助用户将内容翻译成多种语言,同时提供语音克隆和可选的口型同步功能。下面用通俗的语言详细介绍Verbalate的功能和它可能被使用的场景。

https://verbalate.ai/

在这里插入图片描述



更多AI工具,参考国内AiBard123Github-AiBard123

  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值