Task2:精读代码,实战进阶
1、了解AI生图技术的能力&局限
最早的AI生图可追溯到20世纪70年代,当时艺术家哈罗德·科恩(Harold Cohen)发明了AARON,可以通过机械臂传输作画。
现代的AI生图最早可追溯到2012年吴恩达基于深度学习神经网络基础上训练的能生成猫脸的模型。
2015年,谷歌推出了“深梦”图像生成工具,可以基于给定图片生成梦幻版图片。
2021年OpenAI推出ADLL-E模型,可以直接从文本提示生成风格多样的图形设计。
2022年8月,AI生图正式走进大众的视野,当时的AI绘画作评《太空歌剧院》在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”类别一等奖。
通俗来说,AI生图模型是通过学习图片描述和图片特征来获得图片的生成能力。在我们需要的时候通过输入文字,复现出对应特征的图片,从而生成了我们需要的图片。在大部分生图场景下,我们会经常觉得图片有“AI味”,这也是困扰很多开发者的一大问题。但是目前大部分模型已经具备了去除“AI味”的能力,且可能存在容易误导他人的情况,这时候我们想辨别就需要细致地观察图片的细节,检查光线和阴影,分析像素和注意背景。
要了解AI生图的前言,我们可以从魔塔社区的各类AIGC工具开始探索、尝试、思考总结、实践,甚至开发出属于我们自己的工具。过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔塔社区还开源了专门的各种风格的可图优质咒语书,可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用。
2、了解通义千问
1.定义
是具有信息查询、语言理解、文本创作等各种能力的一个AI助手,可以帮助用户获得准确、有用的信息、并解决各种问题。
2.功能
信息查询:无论是科学知识、文化历史还是技术细节,都能够迅速提供相关信息。
语言理解和生成: 可以理解并使用多种语言进行沟通交流,这包括但不限于中文和英文。这意味着可以帮助解释复杂的概念,或是辅助语言学习。
文本创作与编辑:从撰写文章、报告到创意写作,如故事或诗歌,我都能提供支持。此外,还擅长润色和校对文本以提高其质量。
编程与技术支持: 对于编程问题和技术难题,能给出代码建议、调试指导以及技术文档的帮助。
情境模拟与角色扮演: 通过模拟对话场景,比如模拟面试、商务谈判等,帮助更好地准备实际生活中的各种情境。
实时互动与反馈: 在交流过程中,根据用户的反馈不断调整回答,力求更贴近用户的需求。
3、成果展示