Datawhale X 魔搭AI夏令营 Task 2笔记-CSDN博客

本文链接：https://blog.csdn.net/Hans0000/article/details/141187730

在task1的任务中, 我们拿到baseline文件后, 根据教程指示顺畅通关, 似乎没有什么问题。但是可能有些同学看到这个baseline的代码会一脸懵，就很想知道某一个模块、某一行究竟是干啥的，Task 2将教大家如何运用AI来学习代码以及了解文生图的原理。

一.AI生图的难点和挑战

通俗来说，AI生图模型获得图片生成能力主要是通过学习 图片描述 以及 图片特征，尝试将这两者进行一一对应，存储在自己的记忆里。在我们需要的时候，通过输入的文字，复现出来对应的图片特征，从而生成了我们需要的图片。

目前AI生成图像领域面临的难点和挑战主要包括以下几个方面：

数据质量与多样性：
生成高质量的图像需要大量的训练数据，然而获取丰富且多样的高质量图像数据集是非常困难的。尤其在涉及特定领域或风格时，数据的匮乏可能会导致模型生成的图像质量不佳或存在偏差。由于每个模型用于训练的数据是有限的且不一定相同的，它们能匹配的描述和特征也是有限的，所以在风格、具体事物上，不同的模型会有很大的生成差异，且可能存在诸多与现实不符的情况。这也是为什么如今越来越多的团队致力于开发某个特定领域的AIGC应用，精细化带来的不仅是图像生成质量的提高，也是算力和数据成本的降低。
生成质量与细节控制：
尽管现有的AI模型在生成逼真图像方面已有显著进步，但在细节、纹理、光影效果等方面仍存在挑战。生成图像的细节控制和保持连贯性，尤其是在高复杂度场景中，仍然是一个技术难题。
这为我们辨别图片是否带有“AI味”提供了一个方向：
·观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴
·检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，是否存在不自然的光线或阴影
·分析像素。放大图片，寻找是否有模糊或像素化的部分。
·注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。
语义理解与生成一致性：
生成图像时，模型需要理解并保持输入文本或参考图像中的语义一致性。然而，AI在处理复杂的语义和生成多元素图像时，可能会出现误解或生成不一致的情况，例如图像中的元素不符合逻辑或文本描述。
伦理与版权问题：
AI生成图像在内容创作和使用上面临伦理和法律挑战。生成的图像可能会侵犯版权或涉及不当内容。同时，利用AI生成虚假图像进行恶意操作（如深度伪造）也是一个重要的伦理问题。
在AI时代，“有图有真相”已经成为过去式，你所看到的图片不一定是真实的！！！

二.如何利用AI学习AI，以Baseline代码为例

1.选取得心应手的AI大模型，如ChatGPT4.0、通义千问、Kimi等，只要等实现你需求功能的AI产品即可。本文选用ChatGPT4.0来完成。

2.输入相应的prompt，实现功能。这里我们要让AI帮助阅读和理解每行代码的意思

分析代码的主体框架。
输入的prompt：
你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{此处替换相应的代码} 以下是ChatGPT的回复：

2.逐行解释代码
输入的prompt：

你是一个优秀的python开发工程师，现在我们需要你帮我们逐行分析这个代码，用中文回答我的问题。{此处替换相应的代码} 这部分内容有点多，可移至 https://linklearner.com/activity/14/10/32进行查看 3.具体对哪行代码还有疑问，可继续追问 prompt：

我对其中{替换成特定的代码or问题}还是不太理解，给我再详细介绍一下