Datawhale AI夏令营从零入门AI生图原理&实践 TASK2学习笔记-CSDN博客

本文链接：https://blog.csdn.net/2302_79239614/article/details/141200285

学习内容概述

在今天的课程中，我深入了解了AI生图技术及其应用。通过一系列实践操作，我不仅掌握了基本的操作流程，还学会了如何使用AI助手来解决遇到的技术难题。以下是我在本次学习过程中的收获和思考。

技术要点

了解AI生图技术的能力与极限
- AI生图技术能够快速生成高质量的图像，但仍然存在局限性，如细节处理不足、图像质量不稳定等问题。
利用AI助手解决问题
- 学会了使用通义千问等AI助手来帮助理解代码逻辑和解决实际编程中遇到的问题。这些工具对于初学者来说非常有用，能够加速学习过程。就比如赛题要求的图片故事，可以自己想一个大概，然后交给AI扩写，最终得到想要的结果，这就好比小组合作，只不过小组成员变成了大数据而已（有没有可能这篇文章就是AI生成的doge）
代码实践
- 通过一系列的Python脚本，完成了从数据集准备到模型训练和测试的整个流程。
  - 使用MsDataset加载了二次元风格的数据集，并进行了初步的数据预处理。
  - 利用data-juicer工具对图像进行了筛选，确保数据集的质量。
  - 基于CLIP模型计算了图像与文本之间的相似度。
  - 最后，使用StableDiffusionPipeline生成了一系列我所喜欢的风格的图像。
与市场上现有AI生图技术的差距
- 目前生成的图像虽然能够完成基本的关键词要求，但在细节和视觉感官方面与市面上成熟的商用产品还有非常大的距离。
改进方案
- 提高模型的训练精度，通过增加数据量和优化训练策略来提升图像质量。
- 使用更先进的模型结构和技术，如LORA微调等，来增强模型的表现力。
- 引入人类反馈机制，让模型更好地理解人类审美标准。（不得不说确实好用）探索更多功能
  - 尝试使用其他已有的模型和框架，如DALLE-2、Midjourney等，来扩展自己的知识面和技术储备。
  - 了解模型设计的基本原理，包括模型架构的选择和参数调整的方法。