实测AIGC工作流,Stable Diffusion + Mubert 实现图片与音乐的转换生成

社区分享了不少文本生成图像的AIGC(AI生成内容)应用的突破,图像类的生成已经是“红海”了。

我们需要寻找“蓝海”,近期出现了其他内容的突破吗?

5cccd87af378ac113d038737ad11c412.jpeg

Mixlab

57bea958549b3cbd2f94525554fb1ab4.png

小杜

社区五月份介绍了 Pollinations.ai ,平台集成了文本、图像、音频、视频等多种模态的模型,近期平台功能也进行了迭代升级,但在模型内容质量上还是参差不齐。

最近热度最高的开源模型是  Stable Diffusion,其极为优秀的开源生态也催生了许多模型的整合创新。Stable Diffusion + Mubert 就实现了高质量的图像到音乐的生成。尤其是图片转音乐,不是那种抽象电子风,而是真正具备了应用级配乐的水准!(请看下文)



speech-to-image

c9873bce82ac18bbe6d9e8aa1b74019e.png

img-to-music 

5255a14df0fa32830746169f61b17928.png

8fc137a44d0ca01d710bb5e65234acf2.png

小杜

speech-to-image demo 使用预先训练的 OpenAI whisper-small 与 Stable Diffusion 从音频样本生成图像。img-to-music 则是发送图像到剪辑询问器 CLIP Interrogator 生成文本提示,然后通过 Mubert 识别文本输出音乐,实现输入图像到生成音乐的过程。

带我们看看测试效果?

13daeed17d4c3fc44c7026ff541f320f.jpeg

Mixlab

46b99387cef05ddd875a7b5602c99bc9.png

小杜

speech-to-image ,我测试了三类声音到图像的生成

# 人声哼唱(小编的瞎哼)

# 流行音乐 (Golden Hour 前奏+一丢丢人声)

# 环境自然音(小编嘈杂的居住环境)

#01 人声哼唱

e3c753d350389f0af3d0c310acb25ab9.png

#02 流行音乐

fdb291bc54889fac25d778bcf0c7570a.png

#03 环境音

cb3ce0ab8077a01f1b48bdb3dfc1662b.png
......

09ad54e6d8bf52057191ad29062b8da7.png

小杜

出乎意料的惊喜!对于我们人类,与为文字配插画相比,为音乐配

图似乎是件更为困难的事。音乐的抽象特征与AI生成的特质意外的契合。

AI给第一个哼唱生成了一幅略显俏皮的圣诞老人形象,似乎有点在嘲讽我哼唱得五音不全hh。第二个流行歌曲,AI应该是识别出了歌曲的关键词 “Love” ,虽说没太拼对,但有种为爱情冲昏了头脑的感觉。第三个环境音嘈杂而没有感情色彩,AI也生成了一幅比较契合的黑白色调的拼贴画。

反过来,图像生成音乐是啥效果?

d495387c484d9c85d7e7202cd300e388.jpeg

Mixlab

e72d8d7fd028cf264aab1c435dc52178.png

小杜

那可更惊喜了!我找的音频素材可没AI生成的惊艳~同样也测试了三类图片生成的音乐-

# 音频生成的图像

# Stable Diffusion 文本生成的图像

# 艺术画作


#01
 音频生成的图像

1a8a109a6f9442f2d7b549c0a8061244.png


#02 文本生成的图像

ed98b69530cd12bcbac7fc12cc37326b.png


#03
 名画千里江山图局部

875b853a8c60f441951b49b131cb0443.jpeg

......

ef1464c3fdbd0fff218095bb30bb6a29.png

小杜

真是一个比一个惊喜!第一张图是测试 Golden Hour 音频转图像生成的图,反过来生成了有点迷幻电子风的音乐。第二张是用SD生成的概念汽车场景,AI较为精准地 “理解了” 画面内容,生成了科幻枪战的配乐。第三个则是震惊到我了,AI尽然为我挑选的千里江山图生成了有乐章结构的中国风音乐!

Stable Diffusion 的开源生态已经不局限于图像了。在文本-音乐生成模型 Mubert 实现图像-音乐的工作流中,文本是在哪一步生成的呢?

419e4472d0913a5c3e1fbd1e56853594.jpeg

Mixlab

92f9e87252ff66ee5142f4d1518cc99b.png

小杜

img-to-music 使用了 CLIP Interrogator 来生成图像的文字,再通过 Mubert 实现文本转音乐。

74fdd8536d27f19c474691eb040c4f3d.png

图像转文本模型demo

ab1b0e5ad8fa086bff85fc5a02e0b43e.png

文本转音频demo

34677286931bc38a723eb0705b2b01d5.png

小杜

img-to-music 作者 @fffiloni 也展示了他产出的一些输出探索,非常奇妙~

图像转音频 demo

2ca5484224e168b54fef3eb688ae02ae.png

小杜

以 img-to-music 为线索,我找出了 Stable Diffusion 较完善的扩展应用模型集成,大家感兴趣也可以自主尝试基于SD模型的应用扩展创新哦~

speech-to-image demo:
huggingface.co/spaces/fffiloni/speech-to-image

Image to Music demo:
huggingface.co/spaces/fffiloni/img-to-music

CLIP Interrogator:
huggingface.co/spaces/pharma/CLIP-Interrogator

Mubert demo:

huggingface.co/spaces/Mubert/Text-to-Music

Mubert 项目地址:
github.com/MubertAI/Mubert-Text-to-Music

SD 扩展模型应用集成:
github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image

fe2e41f1ef11a2f4ef6f8025f640d4db.png

cbdf69db4c4e51fb754b5e3ca30ea701.png

小杜

更多有关AIGC最新突破的知识信息,欢迎查阅社群知识库哦~

【双11优惠】元宇宙知识库只需139元

下一期我们再卷卷视频?来点动态内容,AIGC 啥都玩一遍hhh

97675e19866625ff819a1d39af76e3a7.jpeg

Mixlab

90cad42a16d97accf16008c668c8d6d9.png

opus

欢迎留言讨论,参与 AIGC  话题的共创共建~

bc587c51d3dc387e46e3b401c3d7ad43.png

添加请备注AIGC & 元宇宙

💡

25f3673a3f5ba090a18a370de04e06b9.png

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AIGC 课程, 目前已支持 ChatGPT, Midjourney, Runway, Stable Diffusion, AI数字人,AI声音&音乐,大模型微调 内容创作效率提升: AIGC能够快速生成大量高质量的内容,包括文本、图像、音频、视频等,极大地提高了创作效率。这不仅降低了人力成本,也使得内容更新和迭代的速度加快,满足了信息爆炸时代人们对新鲜内容的高需求。 个性化和定制化服务: AIGC可以根据用户的需求和偏好自动生成个性化的内容。这种能力在教育、娱乐、营销等领域具有巨大价值,能够提供高度定制化的用户体验,增强用户黏性和满意度。 创新与发现新应用: AIGC技术的不断发展和普及促进了新的应用场景和商业模式的诞生。通过降低开发门槛,更多的开发者和企业能够探索和实验AIGC的应用,有可能催生出全新的现象级应用和服务。 商业效益增长: AIGC在数字商业化领域具有显著优势。它能够赋能营销策略,提高广告和推广的精准度和效果,从而带动企业收入的增长。同时,通过自动化的内容生成,企业可以节省资源并专注于核心业务的创新和发展。 知识传播与教育: AIGC能够生成教育材料、教程和知识摘要,帮助人们更高效地获取和学习新知识。在教育领域,AIGC可以个性化定制学习路径和内容,适应不同学生的学习速度和方式。 行业效率优化: 在保险、出版、法律等行业,AIGC可以自动处理大量的文档、报告和合同,提高工作效率,减少人为错误,并提供数据分析和决策支持。 学术研究与伦理考量: AIGC在学术研究中的应用需要遵循特定的使用边界和准则,以防止学术不端行为。明确的指南有助于确保研究成果的真实性和可信度,同时推动AI技术在科研领域的健康发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值