Datawhale AI夏令营第四期 AIGC方向 task01 初学者笔记

一、相关概念介绍:
1、文生图技术:

文生图技术,全称为“文本到图像生成技术”(Text-to-Image Generation),是一种利用人工智能技术,根据用户输入的文字描述来生成相应图像的方法。这项技术近年来在艺术创作、广告营销、游戏设计等多个领域展现出了巨大的潜力和广泛的应用前景。

2、提示词:

提示词在中文中意为“触发”或“引导”。在自然语言处理(NLP)领域,提示词是指用户向大型语言模型输入的文本,用于指导模型生成特定的输出。这些输入可以是完整的问题、对话片段、指令,甚至仅是单词或句子。模型会根据这个提示词来产生相应的回应或输出,因此提示词可以看作是与模型的“对话起点”或“引导信号”。

3、Lora技术:
LoRa(Long Range Radio)是一种基于扩频技术的远距离无线传输技术,由Semtech公司开发。该技术主要用于物联网(IoT)领域,旨在实现低功耗和远距离的数据传输。

4、ComfyUI:
ComfyUI是一款基于节点工作流稳定扩散算法的图形界面,主要用于AI绘画、图像处理、动画、影视及AI视频等领域。

二、操作过程:
1、下载baseline文件:

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2、安装环境,然后重启kernel:

3、处理数据集:

4、处理模型:

5、生成图片:

图片生成代码:

torch.manual_seed(num)
image = pipe(
    prompt="需求设定",
    negative_prompt="需要避免的设定",
    cfg_scale=4,
    num_inference_steps=50, height=1024, width=1024,
)
image.save("num.jpg")

图片展示:

三、总结:
在运行的过程中,遇到了一些问题,如缺失文件、超显存导致加载模型出错等等,经过不断的尝试,解决了这些问题,在最后成功生成了图片。

从这一次的练习中,我认识到了文生图技术,了解了这项技术的运行原理,以及实际操作并得到了自己的作品,我收获颇多。

感谢您给予我这篇文章的关注与阅读。期待不久的将来,再次与您分享更多精彩。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值