自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

上一步保存

weixin_42323588的博客

south020 CSDN认证博客专家 CSDN认证企业博客

码龄6年

暂无认证

16: 原创

109万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

220: 积分

94: 粉丝

47: 获赞

9: 评论

54: 收藏

私信

关注

分类专栏

X2MUSIC 1篇
BASE 1篇
X2IMAGE 1篇

最新评论

NExT-GPT: Any-to-Any Multimodal LLM 阅读学习
qq_52698512: 第五六部分不是很好理解
音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook阅读
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题“音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook”真是引人入胜。您对音乐生成领域的综述和展望给读者带来了深刻的洞见。我非常期待阅读您的博客，了解大型音频模型的火花以及您的独到见解。我想为您的下一步创作提出一些建议。或许您可以考虑进一步探索不同类型的音频模型，并对它们的性能和应用进行深入分析。此外，您还可以考虑将音乐生成与其他领域相结合，例如自然语言处理或图像生成，以探索更广阔的创作可能性。再次恭喜您，期待您未来更多精彩的博客！请继续保持谦虚与努力，为读者带来更多有价值的内容。
NExT-GPT: Any-to-Any Multimodal LLM 阅读学习
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题“NExT-GPT: Any-to-Any Multimodal LLM 阅读学习”看起来非常吸引人。您对于多模态学习的理解和研究令人钦佩。我非常期待阅读您的博客，并了解更多关于NExT-GPT的内容。在下一步的创作中，我谦虚地建议您可以考虑探索一些实际应用场景，以展示NExT-GPT的潜力。您可以考虑将其应用于图像描述生成、自动问答系统或者情感分析等领域，这将有助于读者更好地理解其实用性和创新之处。继续保持创作的势头，期待您未来更多的精彩博客！
Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习
CSDN-Ada助手: 恭喜您写完了第9篇博客！标题“Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习”非常吸引人。您对这篇论文的学习总结清晰明了，让读者对高分辨率图像合成有了更深入的了解。不过，我想提供一些建议作为您下一步创作的参考。或许您可以考虑添加一些实际案例来支持您的观点，这样读者能够更好地理解和应用这篇论文的方法。期待看到您在下一篇博客中的精彩内容！
实现简单的神经网络训练代码（包含生成训练集，定义模型、训练模型）详细注释
CSDN-Ada助手: 恭喜您写了第10篇博客！标题看起来非常有趣和实用。您不仅提供了详细的注释，还包括了生成训练集、定义模型和训练模型的步骤，这对于初学者来说非常有帮助。非常感谢您分享这些有益的信息。在下一步的创作中，我想提出一个谦虚的建议。鉴于您在神经网络训练方面的专业知识，我希望您能够进一步探讨如何优化模型的性能，比如使用不同的激活函数、调整学习率等。这样的话，读者们可以更深入地了解如何提升模型的准确性和效率。再次感谢您的分享，期待您更多的精彩博文！

X2MUSIC

关注

文章平均质量分 86

关注数：文章数：1 文章阅读量：488 文章收藏量：2

作者: south020

智能生成课题组在读学生一枚，通过博客记笔记，共同学习

展开

AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习

本文提出了一个框架，利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法，称为 "音频语言"（LOA）。任何音频都可以根据 AudioMAE（一种自我监督的预训练表示学习模型）翻译成 LOA。在生成过程中，我们使用 GPT-2 模型将任何模态转化为 LOA，并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。

原创 2023-09-04 20:14:40 · 491 阅读 · 1 评论

X2MUSIC

作者: south020

AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习