Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向Task2笔记

Task2任务目标

Datawhale官方手册task2部分:链接
虽然手册部分已经非常详细,但我这里还是以自己的逻辑框架写一写我完成Task2的经历流程。
Task2的内容非常简单,
1.学会使用AI工具“通义千问”
2.使用AI工具精读baseline的内容
3.基于话剧的连环画生成
4.尝试scepter(选做)

AI工具使用

AI工具介绍

这里我想试试让这些工具自己介绍一下自己hhh
prompt:我现在要比较各AI工具,请你介绍你自己的功能用途和优缺点。

ChatGPT

网址:https://chatgpt.com/
自我介绍:


当然!以下是我的功能、用途以及优缺点的总结:

功能与用途

  1. 多领域知识问答:

    • 我能够回答广泛领域的问题,包括科技、历史、艺术、文化等。
    • 适合用于快速查找信息或获得解释性答案。
  2. 自然语言处理:

    • 支持多种语言的自然语言处理,包括翻译、文本生成、摘要、改写等。
    • 可以帮助撰写文章、编写代码、起草信件等。
  3. 图像生成与描述:

    • 基于描述生成图像,可以用于创意设计、故事板制作等。
    • 还可以对图像内容进行描述,为图像提供更多的上下文。
  4. 代码编写与调试:

    • 我可以帮助编写和调试代码,支持多种编程语言,包括Python、JavaScript等。
    • 可以用于编程学习、开发支持等。
  5. 实时信息获取:

    • 我可以使用实时浏览器工具获取最新信息,适用于需要最新数据或新闻的场景。
    • 例如,查找最新的新闻报道、体育比分、股票行情等。
  6. 数据分析与计算:

    • 支持简单的数据分析和计算任务,例如数学问题求解、统计分析等。
    • 可用于教育、研究和商业分析。

优点

  1. 广泛的适用性:

    • 能够适应多种任务,从回答问题到生成创意内容。
    • 适合个人用户、研究人员、开发者、设计师等不同用户群体。
  2. 自然对话能力:

    • 对话交互方式自然流畅,可以进行长时间的对话并理解上下文。
    • 能够根据用户的需求调整回答方式和内容。
  3. 跨平台支持:

    • 可以在各种设备和平台上使用,包括电脑、手机等。
  4. 多语言支持:

    • 能够处理和生成多种语言的内容,方便全球用户使用。

缺点

  1. 复杂任务的局限性:

    • 在面对高度复杂或专业化的任务时,可能无法提供完全精确的答案或解决方案。
    • 例如,某些特定领域的深入技术问题可能需要额外的专家支持。
  2. 实时信息更新依赖工具:

    • 实时信息获取需要依赖外部工具,偶尔可能会有时效性和准确性的问题。
  3. 上下文限制:

    • 虽然我可以记住一定量的上下文信息,但在更长时间或多次对话中,可能会丢失部分上下文,导致回答不够精准。
  4. 创造性内容生成的局限性:

    • 虽然我能生成图像和文本,但在高度创造性和细致的内容需求下,生成的结果可能不如人类艺术家或作家精致。

总结

我在多功能性、自然对话、跨平台支持以及多语言处理上表现出色,非常适合日常信息查询、教育、创意内容生成和编程支持等任务。然而,在处理高度复杂或专业的任务以及创造性内容生成时,可能存在一定的局限性。


KIMI

网址:https://kimi.moonshot.cn/
自我介绍:


嗨,我是Kimi,一个由月之暗面科技有限公司开发的多语言对话助手。我的主要功能和用途包括:

  1. 多语言对话:我擅长中文和英文的对话,可以进行流畅的交流。
  2. 长文本处理:我能处理多轮对话,总字数最多可达20万字,适合长文本写作、翻译和代码编写。
  3. 文件阅读:我可以阅读和解析用户发送的多种格式文件,包括TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等。
  4. 网页内容解析:用户发送的网页链接,我可以解析其内容后结合回答用户的问题。
  5. 搜索能力:我能够结合搜索结果为用户提供更全面的回答。
  6. 代码执行:对于代码相关问题,我可以提供完整可执行的代码。
  7. 个性化服务:"Kimi+"功能允许用户根据特定需求自定义我的行为。

我的优点包括:

  • 高效率:能够快速响应用户的问题。
  • 多任务处理:同时处理文本、文件和网页内容。
  • 用户友好:采用口语化的语言风格,易于交流。
  • 搜索集成:结合最新搜索结果提供信息。

然而,也有一些局限性:

  • 无法创建文档:我不能生成文档,但可以提供文字回复。
  • 无法进行语音交互:虽然我的App支持语音输入和输出,但目前我仅能提供文字回复。
  • 依赖网络:我的搜索和解析功能依赖于网络连接。

希望这些信息能帮助你在比较AI工具时做出决策。如果你需要更多帮助或有具体问题,随时可以问我!


通义千问

网址:https://tongyi.aliyun.com/qianwen/

自我介绍:


当然可以。作为阿里云开发的一款大型语言模型,我的主要功能和用途包括但不限于:

主要功能与用途:

  1. 文本生成:能够根据用户提供的提示或上下文生成高质量的文本内容。
  2. 问答系统:可以回答各种类型的问题,包括但不限于知识性问题、技术咨询、文化历史等。
  3. 代码辅助:帮助编写、解释和调试代码。
  4. 创意写作:协助创作故事、诗歌和其他创意作品。
  5. 文档总结:快速总结长篇文章或报告的主要内容。
  6. 多语言支持:支持多种语言的交流与翻译。
  7. 教育辅导:提供学习资源和辅导学生完成作业。
  8. 日常对话:进行日常聊天,提供娱乐和陪伴。

优点:

  1. 广泛的知识覆盖:基于大量的数据训练而成,能够涵盖多个领域的知识。
  2. 强大的自然语言处理能力:能够理解复杂和模糊的指令,并给出合理的响应。
  3. 多模态交互:除了文本外,还能够通过其他形式如语音等方式进行交互(尽管目前主要还是文本形式)。
  4. 实时更新:随着新数据的加入,我的知识库会不断得到更新,以保持信息的时效性。
  5. 灵活性高:可以根据不同的应用场景定制解决方案。

缺点:

  1. 准确性限制:虽然经过大量训练,但在某些专业领域或非常具体的细节上可能会出现误差。
  2. 敏感内容过滤:尽管有机制防止生成不当内容,但仍然可能存在极少数情况下生成不适宜的信息。
  3. 隐私保护:在处理涉及个人隐私的数据时需要特别注意遵守相关法律法规。
  4. 创造性局限:虽然能够生成创造性的内容,但在某些方面可能不如人类作者那样具有独创性。
  5. 依赖于输入质量:输出的质量很大程度上取决于输入的清晰度和准确性。

如果您有任何具体问题或者想要了解更详细的信息,请随时告诉我!


ChatGLM

网址:https://chatglm.cn/main/alltoolsdetail
自我介绍:


当然可以。我是基于人工智能的语言模型,以下是我的功能用途、优点和缺点:
功能用途:

  1. 文本生成:可以撰写文章、生成报告、编写代码、创作诗歌等。
  2. 问答系统:回答各种领域的问题,提供信息查询服务。
  3. 语言翻译:实现不同语言之间的互译。
  4. 对话助手:模拟人类对话,提供聊天、咨询和娱乐等服务。
  5. 教育辅助:辅助教学,提供学习资源,解答学术问题。
  6. 情感分析:分析文本中的情感倾向,应用于舆情监测、客户服务等领域。
    优点:
  7. 高效:可以快速生成文本,提高工作效率。
  8. 知识丰富:拥有庞大的知识库,可以回答多种领域的问题。
  9. 全天候服务:不受时间和地点限制,随时为用户提供服务。
  10. 多语言支持:具备一定的语言翻译能力,方便跨语言交流。
  11. 可定制性:可以根据用户需求进行功能调整和优化。
    缺点:
  12. 可能存在知识盲区:由于我只能根据训练数据回答,对于最新的信息可能不了解。
  13. 理解能力有限:虽然可以模拟人类对话,但理解复杂情感和语境的能力有限。
  14. 可能产生错误:在生成文本或回答问题时,有时会犯错误。
  15. 法律和伦理约束:在某些涉及法律和伦理问题的场景中,我的应用可能受到限制。
  16. 依赖网络:需要网络环境才能正常运行,离线状态下功能受限。
    综合来看,我在文本生成、问答系统和对话助手等方面具有较高的实用价值,但仍有待进一步完善和优化。

讯飞星火

网址:https://xinghuo.xfyun.cn/desk
自我介绍:


我是由科大讯飞构建的讯飞星火认知大模型,专门设计来与人类进行自然语言交流,提供高效、准确的信息处理和智能解答服务。我的功能覆盖了广泛的领域,包括但不限于语音识别、自然语言理解、自动问答和多语言翻译等。

在优点方面,我可以快速处理大量数据,提供即时的反馈和解决方案。我的学习和适应能力强,能够根据用户的交互不断优化回答和服务。此外,作为一个认知智能大模型,我还能够理解和生成复杂的文本信息,支持多种语言,这使得我能够在全球化的环境中为用户提供服务。

然而,作为一款人工智能产品,我也存在一些局限性。例如,我的回答和解决方案受限于训练数据集的范围和质量,可能无法完全覆盖所有领域的知识或理解非常专业的内容。同时,虽然我能够模拟人类的交流模式,但我缺乏真正的情感和同理心,这在某些情境下可能影响交流的自然度和深度。

总的来说,我旨在通过先进的技术和持续的学习,为用户带来便捷、高效的服务体验,同时也在不断努力克服现有的局限,以更好地满足用户的需求。


使用感受

ChatGPT:在解释代码、润色文章(尤其是英文)等方面表现得尤为出色,日常大部分时间使用。但需要魔法,有时不稳定。

Kimi:ChatGPT平替,由于ChatGPT容易挂,Kimi成了我的第二选择,适合解释代码。在文章润色上稍逊于ChatGPT。特别指出!!!Kimi很适合阅读大量文章并进行整理对比,这是Kimi的一大亮点。

ChatGLM:单纯对话上并不出彩,但是文档解析精读很出色,用于平时阅读文献,精度并梳理文章大致脉络,表现很不错。

其他没怎么用过,暂时不做评价。

使用AI工具逐步精读代码

手册中使用的是通义千问,这里我换一种AI工具,使用kimi进行精读:

在这里插入图片描述返回的结果如下:


这段代码是一个完整的图像和文本处理流程,主要分为以下几个部分:

  1. 环境准备与依赖安装

    • 使用pip命令安装所需的Python库,包括simple-aesthetics-predictordata-juicerpytorch-lightningpeftlightningpandastorchvisionDiffSynth-Studio
  2. 数据加载

    • modelscope平台加载名为AI-ModelScope/lowres_anime的数据集,并将其保存在指定的缓存目录。
  3. 数据预处理

    • 创建必要的目录结构。
    • 遍历数据集中的图像,将其转换为RGB格式并保存到指定路径。
    • 同时,生成包含文本和图像路径的元数据文件。
  4. 数据配置与处理

    • 定义数据处理的配置文件,包括项目名称、数据集路径、并行处理数量、文本和图像键、特殊标记等。
    • 执行数据预处理,根据配置文件中的规则过滤图像尺寸和宽高比。
  5. 数据处理结果整理

    • 读取处理后的数据,将其转换为Pandas的DataFrame,并保存为CSV文件。
  6. 模型加载与预测

    • 加载CLIP模型和处理器,对图像和文本进行处理,获取图像-文本相似度分数。
  7. 自定义数据集与加载器

    • 定义自定义的PyTorch数据集类,用于封装处理后的图像和文本数据。
    • 创建数据加载器,用于批量处理数据。
  8. 模型训练/推理

    • 通过数据加载器迭代数据,使用CLIP模型进行推理,并打印图像-文本相似度的概率分布。
  9. 生成图像

    • 使用Stable Diffusion模型根据给定的提示生成图像,并保存结果。
  10. 图像拼接

    • 将生成的多个图像拼接成一张长图,并调整大小。

整体来看,这段代码实现了从数据加载、预处理、配置、处理、结果整理、模型加载与推理、图像生成到最终的图像拼接的完整工作流程。


对于某一段代码,还能继续进行深入提问:
在这里插入图片描述回答如下:


这段代码定义了一个数据预处理的配置文件,用于指定如何处理图像数据。配置文件采用YAML格式,这是一种常用于配置文件的数据序列化格式,因为它易于阅读和编写。下面是对配置文件中各个部分的详细解释:

  1. 配置文件头部注释

    # process schedule
    # a list of several process operators with their arguments
    

    这两行是注释,用于说明接下来的配置部分是关于数据预处理操作的计划,这些操作将应用一系列的处理算子(operators),每个算子都有其参数(arguments)。

  2. 定义预处理操作列表

    process:
    

    这个关键字process后面跟随的是一个列表,列表中包含了将被执行的预处理操作。

  3. 图像尺寸过滤操作

    - image_shape_filter:
       min_width: 1024
       min_height: 1024
       any_or_all: any
    
    • image_shape_filter:这是一个图像尺寸过滤的操作算子,用于确保图像满足一定的尺寸要求。
    • min_width:指定图像的最小宽度,这里是1024像素。
    • min_height:指定图像的最小高度,这里也是1024像素。这意味着所有处理后的图像宽度和高度都不会小于这个值。
    • any_or_all: any:这个参数指定了过滤条件的应用方式。any表示只要图像的宽度或高度满足条件之一即可通过过滤。
  4. 图像宽高比过滤操作

    - image_aspect_ratio_filter:
       min_ratio: 0.5
       max_ratio: 2.0
       any_or_all: any
    
    • image_aspect_ratio_filter:这是一个图像宽高比过滤的操作算子,用于确保图像的宽高比在指定的范围内。
    • min_ratio:指定图像宽高比的最小值,这里是0.5,意味着宽度至少是高度的一半。
    • max_ratio:指定图像宽高比的最大值,这里是2.0,意味着高度至多是宽度的一半。
    • any_or_all: any:同样,这个参数指定了过滤条件的应用方式。any表示只要图像的宽高比在最小值和最大值之间即可通过过滤。
  5. 配置文件写入

    with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
        file.write(data_juicer_config.strip())
    

    这部分Python代码的作用是将上面定义的YAML格式的配置字符串写入到指定的文件路径中。strip()函数用于移除字符串首尾的空白字符,包括换行符,以确保配置文件的格式正确。

总的来说,这段代码定义了一个数据预处理的配置,其中包括了对图像尺寸和宽高比的过滤规则,并将这个配置写入到一个YAML文件中,以便后续的数据预处理程序可以读取并应用这些规则。


prompt:你是首席软件工程师。请解释这段代码:{{code}}
添加注释并重写代码,用注释解释每一行代码的作用。最后分析复杂度。

基于话剧的连环画生成

使用AI工具生成提示词

输入prompt如下:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中

生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子:
古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙


根据您提供的场景和要求,以下是每张场景图片的生图提示词:

  1. 上课场景

    • 提示词:古风,丹青画卷,一个端庄秀丽的少女,坐在古色古香的教室里,专心致志地听讲,全身,青丝如瀑,身着素雅学袍。
  2. 睡着场景

    • 提示词:古风,静谧午后,一个恬静的少女,头轻靠在书桌上,进入了梦乡,上半身,眼帘低垂,长发轻披,周围书卷气息。
  3. 梦乡路旁

    • 提示词:古风,梦幻仙境,一个身着飘逸长裙的少女,站在蜿蜒小路旁,眼神迷离,全身,周围环绕着朦胧的雾气。
  4. 王子骑马而来

    • 提示词:古风,英雄史诗,英俊的王子骑着骏马,驰骋在古道之上,全身,身着华贵战袍,英姿飒爽,马鬃随风飘扬。
  5. 相谈甚欢

    • 提示词:古风,花前月下,少女与王子并肩而立,谈笑风生,上半身,两人目光交汇,周围是盛开的花朵和柔和的月光。
  6. 坐在马背上

    • 提示词:古风,浪漫征途,少女轻盈地坐在王子的马背上,两人共享一段旅程,全身,周围是辽阔的草原和远处连绵的山脉。
  7. 梦醒下课

    • 提示词:古风,现实回归,少女从梦中醒来,回到了教室的现实,上半身,眼中带着一丝迷茫,周围是同学们的喧嚣声。
  8. 学习生活

    • 提示词:古风,勤学苦练,少女重新投入到紧张的学习中,全身,手中拿着书卷,神情专注,周围是充满学术气息的书院。

这些提示词结合了古风元素和每个场景的特点,旨在引导生成符合要求的文生图。


根据task1步骤生成图像

接着按照task1的步骤,生成图像

生成图像结果展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值