学习AICG

理论

文生图的历史

        早期探索(20世纪60年代-20世纪90年代):

        文生图的概念最早出现于计算机视觉和图像处理的早期研究中。

        早期的图像生成技术主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形。

        然而,由于计算能力和算法的限制,这一阶段的技术能力非常有限,生成的图像质量较低,应用场景也非常有限。

        基于统计模型的方法(2000年代):

        进入2000年代,随着统计模型和机器学习技术的发展,文生图技术开始得到更多关注。

        研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升,但由于模型的复杂性和计算资源的限制,生成的图像仍然较为粗糙,不够逼真。

        深度学习的崛起(2010年代):

        2010年代是文生图技术发展的一个重要转折点。随着深度学习,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)的发展,文生图技术取得了突破性进展。2014年,Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练,极大地提升了图像生成的质量。随后,各类变种GAN模型被提出,如DCGAN、Pix2Pix等,使得文生图技术在生成逼真图像方面达到了前所未有的高度。

        大规模预训练模型(2020年代):

        进入2020年代,大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现,标志着文生图技术进入了一个新的时代。

        CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。

        这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。

什么是prompts

        prompts即提示词,用语生成魔法的咒语,对希望生成图形的描述

什么是Lora

        Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。

什么是ComfyUI

        ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。

实践

前置工作 

        开通阿里云PAI-DSW试用

        在魔塔社区创建PAI实例

        克隆baseline

运行代码

        1.配置环境

        2.下载数据集和保存数据

        3.数据处理并保存 

        4.训练模型

可以微调lora模型

        5.输入图片的提示词(可自由调参)

        6.生成图像

当前AI内容生成(AICG)工具众多,每款都有其特点和适用场景。一些流行的AICG工具包括: 1. **DALL-E**: 由OpenAI开发的图像生成模型,用户可以通过文本描述生成逼真的图片,适合创意设计和概念可视化。 2. **Stable Diffusion**: 德州仪器(Adobe)和 Stability AI 合作的产品,也是一款强大的文本到图像的生成工具。 3. **Midjourney**: 提供图像创作服务,用户可以上传关键词或草图,得到艺术化或概念化的图像。 4. **Google's Imagen**: Google 的大模型,同样用于文本到图像的转换,能产生高质量图像。 5. **Craiyon**: 友好的在线工具,无需代码,通过简单的界面就可以进行图像生成。 6. **FewShot**: 基于深度学习的文本指导图像生成器,能够理解和处理复杂的指令。 7. **Hugging Face's Datasets and Transformers**: 这些是开源库,提供了大量的预训练模型和数据集,开发者可以利用它们进行定制的AICG任务。 在选择AICG工具时,要考虑因素有: - **功能和性能**:看是否能满足你的特定需求,比如图像质量、细节控制等。 - **易用性**:是否对非技术背景用户友好,是否有直观的用户界面。 - **可定制性**:是否支持自定义训练或微调以适应个人项目。 - **社区支持**:是否有活跃的开发者社区和丰富的教程资源。 - **版权和隐私**:确保使用符合许可规定的工具,避免版权风险。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值