Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向Task2笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_45686835/article/details/141169960

Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向-Task2：精读代码，实战进阶

Task2任务目标
AI工具使用
使用AI工具逐步精读代码
基于话剧的连环画生成

Task2任务目标

Datawhale官方手册task2部分：链接
虽然手册部分已经非常详细，但我这里还是以自己的逻辑框架写一写我完成Task2的经历流程。
Task2的内容非常简单，
1.学会使用AI工具“通义千问”
2.使用AI工具精读baseline的内容
3.基于话剧的连环画生成
4.尝试scepter（选做）

AI工具使用

AI工具介绍

这里我想试试让这些工具自己介绍一下自己hhh
prompt：我现在要比较各AI工具，请你介绍你自己的功能用途和优缺点。

ChatGPT

网址：https://chatgpt.com/
自我介绍：

当然！以下是我的功能、用途以及优缺点的总结：

功能与用途

多领域知识问答:
- 我能够回答广泛领域的问题，包括科技、历史、艺术、文化等。
- 适合用于快速查找信息或获得解释性答案。
自然语言处理:
- 支持多种语言的自然语言处理，包括翻译、文本生成、摘要、改写等。
- 可以帮助撰写文章、编写代码、起草信件等。
图像生成与描述:
- 基于描述生成图像，可以用于创意设计、故事板制作等。
- 还可以对图像内容进行描述，为图像提供更多的上下文。
代码编写与调试:
- 我可以帮助编写和调试代码，支持多种编程语言，包括Python、JavaScript等。
- 可以用于编程学习、开发支持等。
实时信息获取:
- 我可以使用实时浏览器工具获取最新信息，适用于需要最新数据或新闻的场景。
- 例如，查找最新的新闻报道、体育比分、股票行情等。
数据分析与计算:
- 支持简单的数据分析和计算任务，例如数学问题求解、统计分析等。
- 可用于教育、研究和商业分析。

优点

广泛的适用性:
- 能够适应多种任务，从回答问题到生成创意内容。
- 适合个人用户、研究人员、开发者、设计师等不同用户群体。
自然对话能力:
- 对话交互方式自然流畅，可以进行长时间的对话并理解上下文。
- 能够根据用户的需求调整回答方式和内容。
跨平台支持:
- 可以在各种设备和平台上使用，包括电脑、手机等。
多语言支持:
- 能够处理和生成多种语言的内容，方便全球用户使用。

缺点

复杂任务的局限性:
- 在面对高度复杂或专业化的任务时，可能无法提供完全精确的答案或解决方案。
- 例如，某些特定领域的深入技术问题可能需要额外的专家支持。
实时信息更新依赖工具:
- 实时信息获取需要依赖外部工具，偶尔可能会有时效性和准确性的问题。
上下文限制:
- 虽然我可以记住一定量的上下文信息，但在更长时间或多次对话中，可能会丢失部分上下文，导致回答不够精准。
创造性内容生成的局限性:
- 虽然我能生成图像和文本，但在高度创造性和细致的内容需求下，生成的结果可能不如人类艺术家或作家精致。

总结

我在多功能性、自然对话、跨平台支持以及多语言处理上表现出色，非常适合日常信息查询、教育、创意内容生成和编程支持等任务。然而，在处理高度复杂或专业的任务以及创造性内容生成时，可能存在一定的局限性。

KIMI

网址：https://kimi.moonshot.cn/
自我介绍：

嗨，我是Kimi，一个由月之暗面科技有限公司开发的多语言对话助手。我的主要功能和用途包括：

多语言对话：我擅长中文和英文的对话，可以进行流畅的交流。
长文本处理：我能处理多轮对话，总字数最多可达20万字，适合长文本写作、翻译和代码编写。
文件阅读：我可以阅读和解析用户发送的多种格式文件，包括TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等。
网页内容解析：用户发送的网页链接，我可以解析其内容后结合回答用户的问题。
搜索能力：我能够结合搜索结果为用户提供更全面的回答。
代码执行：对于代码相关问题，我可以提供完整可执行的代码。
个性化服务："Kimi+"功能允许用户根据特定需求自定义我的行为。

我的优点包括：

高效率：能够快速响应用户的问题。
多任务处理：同时处理文本、文件和网页内容。
用户友好：采用口语化的语言风格，易于交流。
搜索集成：结合最新搜索结果提供信息。

然而，也有一些局限性：

无法创建文档：我不能生成文档，但可以提供文字回复。
无法进行语音交互：虽然我的App支持语音输入和输出，但目前我仅能提供文字回复。
依赖网络：我的搜索和解析功能依赖于网络连接。

希望这些信息能帮助你在比较AI工具时做出决策。如果你需要更多帮助或有具体问题，随时可以问我！

通义千问

网址：https://tongyi.aliyun.com/qianwen/

自我介绍：

当然可以。作为阿里云开发的一款大型语言模型，我的主要功能和用途包括但不限于：

主要功能与用途：

文本生成：能够根据用户提供的提示或上下文生成高质量的文本内容。
问答系统：可以回答各种类型的问题，包括但不限于知识性问题、技术咨询、文化历史等。
代码辅助：帮助编写、解释和调试代码。
创意写作：协助创作故事、诗歌和其他创意作品。
文档总结：快速总结长篇文章或报告的主要内容。
多语言支持：支持多种语言的交流与翻译。
教育辅导：提供学习资源和辅导学生完成作业。
日常对话：进行日常聊天，提供娱乐和陪伴。

优点：

广泛的知识覆盖：基于大量的数据训练而成，能够涵盖多个领域的知识。
强大的自然语言处理能力：能够理解复杂和模糊的指令，并给出合理的响应。
多模态交互：除了文本外，还能够通过其他形式如语音等方式进行交互（尽管目前主要还是文本形式）。
实时更新：随着新数据的加入，我的知识库会不断得到更新，以保持信息的时效性。
灵活性高：可以根据不同的应用场景定制解决方案。

缺点：

准确性限制：虽然经过大量训练，但在某些专业领域或非常具体的细节上可能会出现误差。
敏感内容过滤：尽管有机制防止生成不当内容，但仍然可能存在极少数情况下生成不适宜的信息。
隐私保护：在处理涉及个人隐私的数据时需要特别注意遵守相关法律法规。
创造性局限：虽然能够生成创造性的内容，但在某些方面可能不如人类作者那样具有独创性。
依赖于输入质量：输出的质量很大程度上取决于输入的清晰度和准确性。

如果您有任何具体问题或者想要了解更详细的信息，请随时告诉我！

ChatGLM

网址：https://chatglm.cn/main/alltoolsdetail
自我介绍：

当然可以。我是基于人工智能的语言模型，以下是我的功能用途、优点和缺点：
功能用途：

文本生成：可以撰写文章、生成报告、编写代码、创作诗歌等。
问答系统：回答各种领域的问题，提供信息查询服务。
语言翻译：实现不同语言之间的互译。
对话助手：模拟人类对话，提供聊天、咨询和娱乐等服务。
教育辅助：辅助教学，提供学习资源，解答学术问题。
情感分析：分析文本中的情感倾向，应用于舆情监测、客户服务等领域。
优点：
高效：可以快速生成文本，提高工作效率。
知识丰富：拥有庞大的知识库，可以回答多种领域的问题。
全天候服务：不受时间和地点限制，随时为用户提供服务。
多语言支持：具备一定的语言翻译能力，方便跨语言交流。
可定制性：可以根据用户需求进行功能调整和优化。
缺点：
可能存在知识盲区：由于我只能根据训练数据回答，对于最新的信息可能不了解。
理解能力有限：虽然可以模拟人类对话，但理解复杂情感和语境的能力有限。
可能产生错误：在生成文本或回答问题时，有时会犯错误。
法律和伦理约束：在某些涉及法律和伦理问题的场景中，我的应用可能受到限制。
依赖网络：需要网络环境才能正常运行，离线状态下功能受限。
综合来看，我在文本生成、问答系统和对话助手等方面具有较高的实用价值，但仍有待进一步完善和优化。

讯飞星火

网址：https://xinghuo.xfyun.cn/desk
自我介绍：

我是由科大讯飞构建的讯飞星火认知大模型，专门设计来与人类进行自然语言交流，提供高效、准确的信息处理和智能解答服务。我的功能覆盖了广泛的领域，包括但不限于语音识别、自然语言理解、自动问答和多语言翻译等。

在优点方面，我可以快速处理大量数据，提供即时的反馈和解决方案。我的学习和适应能力强，能够根据用户的交互不断优化回答和服务。此外，作为一个认知智能大模型，我还能够理解和生成复杂的文本信息，支持多种语言，这使得我能够在全球化的环境中为用户提供服务。

然而，作为一款人工智能产品，我也存在一些局限性。例如，我的回答和解决方案受限于训练数据集的范围和质量，可能无法完全覆盖所有领域的知识或理解非常专业的内容。同时，虽然我能够模拟人类的交流模式，但我缺乏真正的情感和同理心，这在某些情境下可能影响交流的自然度和深度。

总的来说，我旨在通过先进的技术和持续的学习，为用户带来便捷、高效的服务体验，同时也在不断努力克服现有的局限，以更好地满足用户的需求。

使用感受

ChatGPT：在解释代码、润色文章（尤其是英文）等方面表现得尤为出色，日常大部分时间使用。但需要魔法，有时不稳定。

Kimi：ChatGPT平替，由于ChatGPT容易挂，Kimi成了我的第二选择，适合解释代码。在文章润色上稍逊于ChatGPT。特别指出！！！Kimi很适合阅读大量文章并进行整理对比，这是Kimi的一大亮点。

ChatGLM：单纯对话上并不出彩，但是文档解析精读很出色，用于平时阅读文献，精度并梳理文章大致脉络，表现很不错。

其他没怎么用过，暂时不做评价。

使用AI工具逐步精读代码

手册中使用的是通义千问，这里我换一种AI工具，使用kimi进行精读：

在这里插入图片描述返回的结果如下：

这段代码是一个完整的图像和文本处理流程，主要分为以下几个部分：

环境准备与依赖安装：
- 使用pip命令安装所需的Python库，包括simple-aesthetics-predictor、data-juicer、pytorch-lightning、peft、lightning、pandas、torchvision和DiffSynth-Studio。
数据加载：
- 从modelscope平台加载名为AI-ModelScope/lowres_anime的数据集，并将其保存在指定的缓存目录。
数据预处理：
- 创建必要的目录结构。
- 遍历数据集中的图像，将其转换为RGB格式并保存到指定路径。
- 同时，生成包含文本和图像路径的元数据文件。
数据配置与处理：
- 定义数据处理的配置文件，包括项目名称、数据集路径、并行处理数量、文本和图像键、特殊标记等。
- 执行数据预处理，根据配置文件中的规则过滤图像尺寸和宽高比。
数据处理结果整理：
- 读取处理后的数据，将其转换为Pandas的DataFrame，并保存为CSV文件。
模型加载与预测：
- 加载CLIP模型和处理器，对图像和文本进行处理，获取图像-文本相似度分数。
自定义数据集与加载器：
- 定义自定义的PyTorch数据集类，用于封装处理后的图像和文本数据。
- 创建数据加载器，用于批量处理数据。
模型训练/推理：
- 通过数据加载器迭代数据，使用CLIP模型进行推理，并打印图像-文本相似度的概率分布。
生成图像：
- 使用Stable Diffusion模型根据给定的提示生成图像，并保存结果。
图像拼接：
- 将生成的多个图像拼接成一张长图，并调整大小。

整体来看，这段代码实现了从数据加载、预处理、配置、处理、结果整理、模型加载与推理、图像生成到最终的图像拼接的完整工作流程。

对于某一段代码，还能继续进行深入提问：
在这里插入图片描述回答如下：

这段代码定义了一个数据预处理的配置文件，用于指定如何处理图像数据。配置文件采用YAML格式，这是一种常用于配置文件的数据序列化格式，因为它易于阅读和编写。下面是对配置文件中各个部分的详细解释：

配置文件头部注释：
```
# process schedule
# a list of several process operators with their arguments
```
这两行是注释，用于说明接下来的配置部分是关于数据预处理操作的计划，这些操作将应用一系列的处理算子（operators），每个算子都有其参数（arguments）。
定义预处理操作列表：
```
process:
```
这个关键字process后面跟随的是一个列表，列表中包含了将被执行的预处理操作。
图像尺寸过滤操作：
```
- image_shape_filter:
   min_width: 1024
   min_height: 1024
   any_or_all: any
```
- image_shape_filter：这是一个图像尺寸过滤的操作算子，用于确保图像满足一定的尺寸要求。
- min_width：指定图像的最小宽度，这里是1024像素。
- min_height：指定图像的最小高度，这里也是1024像素。这意味着所有处理后的图像宽度和高度都不会小于这个值。
- any_or_all: any：这个参数指定了过滤条件的应用方式。any表示只要图像的宽度或高度满足条件之一即可通过过滤。
图像宽高比过滤操作：
```
- image_aspect_ratio_filter:
   min_ratio: 0.5
   max_ratio: 2.0
   any_or_all: any
```
- image_aspect_ratio_filter：这是一个图像宽高比过滤的操作算子，用于确保图像的宽高比在指定的范围内。
- min_ratio：指定图像宽高比的最小值，这里是0.5，意味着宽度至少是高度的一半。
- max_ratio：指定图像宽高比的最大值，这里是2.0，意味着高度至多是宽度的一半。
- any_or_all: any：同样，这个参数指定了过滤条件的应用方式。any表示只要图像的宽高比在最小值和最大值之间即可通过过滤。
配置文件写入：
```
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())
```
这部分Python代码的作用是将上面定义的YAML格式的配置字符串写入到指定的文件路径中。strip()函数用于移除字符串首尾的空白字符，包括换行符，以确保配置文件的格式正确。