Ai工具
hjx_dou
这个作者很懒,什么都没留下…
展开
-
腾讯开源人像照片生成视频模型V-Express
但是,控制信号的强度可能会有所不同,包括文本、音频、图像参考、姿势、深度图等。其中,较弱的条件往往由于较强条件的干扰而难以有效,这对平衡这些条件构成了挑战。在人像视频生成方面,我们发现音频信号特别弱,经常被姿势和原始图像等较强的信号所掩盖。为了解决这个问题,我们提出了V-Express,这是一种简单的方法,通过一系列渐进式丢弃操作来平衡不同的控制信号。在人像视频生成领域,使用单张图像生成人像视频变得越来越普遍。我们的方法逐渐实现了弱条件下的有效控制,从而实现了同时考虑姿势、输入图像和音频的生成能力。原创 2024-06-07 21:50:10 · 239 阅读 · 0 评论 -
腾讯开源文生图大模型混元DiT加速库,生图时间缩短75%
看到75%我真的震惊了,是不是代表着我的破电脑又有了焕发第二春的希望?快,来个人,赶紧打醒我,我还想让我的破电脑多活几年。这还真的是天晴了,雨停了,我又觉得我行了。原创 2024-06-06 23:16:49 · 449 阅读 · 0 评论 -
快手发布视频生成大模型「可灵」
可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型,具备强大的视频生成能力 让用户可以轻松高效地完成艺术视频创作。看介绍是对标的sora,我没申请体验,不过我看他还有表情身体驱动,看这个样子挺像musepose的。模型号称是自研的,我觉得也不用太关心啥细节,用就完了。原创 2024-06-06 23:13:37 · 862 阅读 · 0 评论 -
用于对话场景的文本转语音-chattts
ChatTTS 很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应,并在集成到各种应用和服务时提供更自然流畅的互动体验。这样的简单性使其方便有语音合成需求的用户。ChatTTS 使用了大量数据进行训练,大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高,听起来自然。ChatTTS 的一个关键特性是支持多种语言,包括英语和中文。项目团队计划开源一个经过训练的基础模型。团队致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。原创 2024-06-03 23:25:57 · 188 阅读 · 0 评论 -
发现一个ai工具网站
大概看了下,这个网站收集的数据还挺有用的,有很多实用的ai教程。懂ai工具的可以在这上面找找灵感。原创 2024-05-31 23:53:12 · 214 阅读 · 0 评论 -
MusePose:用于虚拟人类生成的姿势驱动的图像到视频框架。
这个东西有个好处,就是你可以生成一个虚拟人物,然后自己做一个视频,将你的动作和语音迁移到虚拟人物上,变成一个更可控的数字人。刚发布的新项目,看演示的话,应该可以根据你的肢体动作,直接驱动图片进行同样的动作。我觉得还是有很大潜力的,有兴趣的同学可以跟进一下。原创 2024-05-30 23:46:35 · 365 阅读 · 0 评论 -
国产开源Open-Sora-Plan支持国产AI计算系统
Open-Sora-Plan有了新升级,目前已经支持使用国产AI计算系统(华为昇腾,期待更多国产算力芯片)进行完整的训练和推理。在项目第二阶段,所有训练和推理任务完全由华为昇腾计算系统支持。此外,基于华为昇腾的512卡集群训练出的模型,也可以无缝地在GPU上运行,并保持相同的视频质量。目前国产芯片的生态我不太了解,不过看样子有点搞头,我是觉得国产的优势在于快速支持迭代,而且价格上也会更合理一些。我在想是不是其他的一些模型也可以支持国产芯片的训练和推理,前期肯定要花费更多的调试和适配时间。原创 2024-05-29 09:57:59 · 208 阅读 · 0 评论 -
发现一个可以白嫖GPU的平台
驱动云注册有100点的算力点,目前最便宜的机器大概是0.49算力点每小时,安装个sd或者简单学习训练数据的话,应该能用挺久的。官方也有很多镜像,能直接复用,感兴趣的可以注册了以后看看。原创 2024-05-29 09:52:33 · 195 阅读 · 0 评论 -
一个 ComfyUI 节点,它使用 的 LLMs 功能对您的输入执行任何操作以进行任何类型的输出-anynode
一个 ComfyUI 节点,它使用 的 LLMs 功能对您的输入执行任何操作以进行任何类型的输出。原创 2024-05-28 23:43:00 · 214 阅读 · 0 评论 -
用于生成 Avatar 的文本引导式情感和运动控制-InstructAvatar
在本文中,我们提出了一种新颖的文本引导方法,用于生成具有情感表现力的 2D 头像,为生成的视频提供细粒度控制、改进的交互性和通用性。最近的会说话的头像生成模型在实现与音频的真实和准确的嘴唇同步方面取得了长足的进步,但在控制和传达头像的详细表情和情感方面往往存在不足,使生成的视频不那么生动和可控。我们设计了一个自动标注流水线来构建一个指令-视频配对的训练数据集,配备了一个基于双分支扩散的新型生成器,可以同时预测具有音频和文本指令的化身。用于生成 Avatar 的文本引导式情感和运动控制。原创 2024-05-28 23:38:12 · 268 阅读 · 0 评论 -
Suno将推新功能,可根据敲击节奏自动捕捉并与之“和弦”
Suno将推新功能,可根据敲击节奏自动捕捉并与之“和弦”。目前看官网好像还没有开放,不过可以记一下。看这介绍好像可以更精准的创作歌曲了。原创 2024-05-27 23:32:24 · 280 阅读 · 0 评论 -
又一个换脸工具-swapface
看官网支持windows和mac m1,我下载了但是我没安装,因为我的硬盘真的遭不住了。但是我感觉还是rope比较好,其实rope已经很快了,就是没有gpu有点坑。可以去别的地方搜搜介绍,听说使用挺简单的。原创 2024-05-25 19:32:08 · 331 阅读 · 0 评论 -
万象生图,一个windows文生图的软件
支持各种快速生图模型,如LCM、TCD、Lightning、Hyper-SD等。支持文生图,支持提示词本地翻译,支持提示词权重语法,支持样例和风格。windows的同学可以下载看看,可以直接cpu运行,不需要gpu。支持图处理,包括去除背景和图像放大。原创 2024-05-24 22:55:22 · 375 阅读 · 0 评论 -
试用了一下百度文库的智能漫画,挺有意思的
个人感觉还可以,挺有漫画的感觉的,就是有个bug,我的托比刚开始是个恐龙,最后居然给我变成了一只狗。人物我忘了截图,然后就进入漫长的等待生成中。最后差不多是这样的。输入简单的一句话,让ai给我润色。下一步就开始选择风格,选择人物。有兴趣的朋友可以去试一试。还是老样子,简单的瞎试。原创 2024-05-23 23:15:40 · 314 阅读 · 0 评论 -
这次我在mac上装了rope,真的遭罪
真的就是一句报错改一行,而且里面的加载model路径的写法有两种,一种是只支持windows的,提示找不到模型文件,改了一堆。硬着头皮好不容易跑起来了,我的电脑都快炸了,速度奇慢,基本上我就放弃了,我还想让我电脑多活两年。今天因为有了需求,我就试着安装了一下。不得不说很多软件尤其是ai软件用mac来跑简直是受罪。为啥要改,因为没有gpu,所有写死的cuda全部让我改成了cpu。所以没钱没设备别玩ai,真的遭罪。一共没几个文件,基本上全改了。原创 2024-05-21 18:13:53 · 251 阅读 · 0 评论 -
viva的文生视频初体验
老实说,惊艳的我都要跪了,magic prompt生成了这么漂亮的提示词,结果就给我来这个?当然也可能是我使用方式不对,一般来说免费的都需要深入挖掘,能出来就不错了,不能要求太高。我一般用这种工具都喜欢胡来,就是随便一句话,看看能给我多少惊艳体验。有需要的朋友去看看吧。原创 2024-05-20 23:07:07 · 217 阅读 · 0 评论 -
一个简单的工具,可使用 AI 将屏幕截图、模型和 Figma 设计转换为干净、实用的代码。现在支持 GPT-4O!
一个简单的工具,可使用 AI 将屏幕截图、模型和 Figma 设计转换为干净、实用的代码。现在支持 GPT-4O!有兴趣的朋友可以看一下。原创 2024-05-16 23:18:21 · 362 阅读 · 0 评论 -
开源的全自动生成视频文案、视频素材、视频字幕、视频背景音乐的AI项目
只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。原创 2024-05-15 08:09:07 · 199 阅读 · 0 评论 -
上线4天狂揽2.3k星-IC-Light
用于操纵图像照明效果的IC-Light,全称lmposing Consistent Light。上传任意一张图,系统会自动分离人物等主体,选择光源位置,填上提示词,就能毫无破绽的融入新环境了!ControlNet作者新作,上线4天狂揽2.3k星。有兴趣的朋友可以关注一下。原创 2024-05-11 23:54:26 · 125 阅读 · 0 评论 -
剪映也开始生成数字人了
数字人现在生成成本越来越低了,大厂对于这种技术真的是降维打击。价格是49元每月每形象,如果使用频繁的话,感觉不贵。我的剪映里还没看到,估计还处于灰度测试之中。不过有的人已经开始试用了。具体位置如下图这个地方。原创 2024-05-09 23:28:27 · 452 阅读 · 0 评论 -
又一个限时免费生成图片的AI平台
抖音官方的文升图,用抖音登录就可以,每天送60积分,目前看文生图好像是限时免费。现在这种工具越来越多了,而且越来越成熟,努力做一个使用工具的人。随手试了一下,速度很快,质量也还可以,背靠大厂,值得用一下。原创 2024-05-09 17:08:57 · 223 阅读 · 0 评论 -
AI视频换脸工具-Rope
具体有多快我没安装测试,因为我的电脑是真的不快(现在对动辄几十个G的模型文件发怵)。这种我感觉有用的开源项目就先做一个记录,以后如果真的有需要可以直接拿过来使用。我是看到别人分享的使用教程,虽然是windows的,但是确实是傻瓜式的安装。Rope的官方文档里令我印象最深的介绍就是四个字:快如闪电!对快有着无比的自信,毕竟是一个有着3.4k个star的项目。原创 2024-05-05 23:21:54 · 211 阅读 · 0 评论 -
Adobe 更新 Firefly Image 3 图像生成模型
Adobe 更新 Firefly Image 3 图像生成模型,我用了mj的提示词,最后生成的图片感觉不太好,我猜是我使用的有问题,不过想想以后ps上用到各种ai,能媲美mj的话,那么我可能也要深度使用ps了。一个工具或者模型,对于初次使用的人来说,易用性和超出预期的效果很能吸引使用者,suno和mj在这方面我感觉确实不错,第一次使用感觉很惊艳。生成的图片如下,感觉挺普通。原创 2024-05-04 11:02:29 · 252 阅读 · 0 评论 -
AI 视频剪辑-Captions
看介绍感觉能自动识别并剪辑爆款视频,我试用了一下,只能说确实能识别多个片段,但是效果主要还是取决于视频的质量。Captions 可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。目前给我的感觉是还没有特别的惊艳,但是不排除他以后能帮助剪辑人大大的提升效率。随便找了个视频链接,确实截取了多个视频片段,聊胜于无。原创 2024-05-03 21:54:35 · 239 阅读 · 0 评论 -
b站推出必剪studio,可以定制自己的数字人,限时免费
现在需要申请排队,他的这个排队感觉有个bug,我申请了以后返回主页让我登录,登录了以后提示我还在排队。再返回主页还要去我登录,死循环了。b站推出必剪studio,可以定制自己的数字人,限时免费。具体以文字发布时间为准,以后说不准就全面开放了。感兴趣的可以去申请试用一下。原创 2024-05-01 23:33:45 · 329 阅读 · 0 评论 -
这个国产的AI平台-天工,貌似被大家忽略了
当然suno之类的也很厉害,比如我第一次使用的时候,我简单的写了一个句子,他就能生成两分钟的曲子,虽然我也听不清它里面的词,但是确实挺好听的。现在天工完全能实现我的这种要求了,虽然我也不太确定这会不会侵权,但是这确实能使很多没有音乐专业知识的人,只通过写词就能创作属于自己的音乐。我昨天试了几个AI生成音乐的平台。虽然很多人唱衰这种ai音乐生成,觉得没办法变现,但是我觉得ai音乐还是很值得研究的,起码满足一部分的人的需求。我看了很多人分享的例子,有很多人就用很简单的话语,就能生成很令人舒适的歌曲。原创 2024-04-30 23:39:28 · 129 阅读 · 0 评论 -
试用了三个Ai音乐工具,我的偶像河图要完蛋了
试了三个生成音乐的ai工具,分别是爆火的suno,后期新秀udio,还有我们国内的天工。先说感受,suno和天工我觉得稍微靠前,udio可能我的配置风格有问题,啪啪啪连选了好几个风格,生成的东西有点怪。我随手写了一句歌词,分别放到这三个里面。歌词是这样的:落日余晖谁沾湿了襟袖,谁家新人最后白了头。原创 2024-04-29 22:36:00 · 333 阅读 · 0 评论 -
5分钟给自己的公众号定制一个ai聊天机器人
今天才知道,公众号居然能顺利接入ai机器人。而且这个机器人完全可以自己定制。用的工具是字节的coze。原创 2024-04-26 19:14:30 · 598 阅读 · 0 评论 -
开源克隆声音的项目-OpenVoice V2
本地部署我没有做,我在myshell的官网上测试了一下,可能是上传的音频有杂音,导致不是很清晰。克隆速度和生成速度还是挺快的。不过声音有点不是很像,估计跟音频有些关系。只需要上传一段20秒到5分钟之间的声音,就可以克隆声音。myshell的OpenVoice 出v2版本了。时间在20秒至5分钟之间。原创 2024-04-26 19:01:51 · 400 阅读 · 0 评论