Datawhale X 魔搭 AI夏令营夏令营第四期 Task2：精读代码，实战进阶

siri_177

已于 2024-09-15 16:22:26 修改

阅读量1.9k

点赞数 54

文章标签：人工智能 AIGC 语言模型

于 2024-08-14 23:19:30 首次发布

本文链接：https://blog.csdn.net/siri_177/article/details/141201102

版权

一、AI生图前沿

1.1AIGC简介

AIGC是利用人工智能技术自动生成内容的一种生产方式，被认为是未来人工智能的重点发展方向。同时，AI生成图像是AIGC领域中最早被广泛认可和使用的技术，已对摄影、美术等艺术领域产生颠覆性影响。

1.2AI生图的影响

1.2.1AI生图对相关创作领域的影响

随着AI技术的飞速发展，不管是去年爆火的抖音AI绘图特效，还是如今愈发成熟的AI生图功能对相关艺术创作领域的冲击。其带来的影响既有积极的一面，也有其消极的方面。

如何平衡原创与AI制作之间的比例与关系是今后各行各业都应深入考虑的问题。

1.2.2Deepfack的产生

由于AI技术的迅猛发展，以及互联网信息传播的特点。Facknews数不胜数，其中包括“假+假”型，“真+假”型，以及“假+真”型。对于最前者的辨别还相对容易，但当新闻过程虚假、结果真实或过程真实、结果虚假时，往往让人难以辨别。

图片截取自b站up主波士顿圆脸投稿合集。AI生成视频能力也十分强大，且对于其的甄别更为困难，被蒙骗的受众数量也相对更多。以下表格为各大平台对于虚假信息的甄别机制。

平台名称	甄别机制
Facebook	1.机器学习和自然语言处理模型：使用大规模的机器学习模型来扫描和识别潜在的虚假信息。这些模型能够分析文本、图片和视频内容，以检测虚假新闻、仇恨言论以及操纵信息。 2.DeepText：这是一个基于深度学习的自然语言处理模型，能够理解帖子中的上下文和语义，从而识别虚假信息和仇恨言论。 3.第三方事实核查合作：与多个第三方事实核查机构合作，通过人工和自动化工具来验证信息的真实性。这些核查机构会标记虚假信息，降低其传播优先级。 4.图像和视频内容分析：利用计算机视觉技术检测图片和视频中的伪造内容，例如深度伪造（deepfake）视频。
X（原Twitter）	1.Birdwatch: 是一个社区驱动的工具，允许用户标记和纠正平台上的误导性内容。尽管这一工具主要依赖用户的反馈，但其背后依然使用了自然语言处理技术来分析和验证用户提交的内容。 2.机器学习算法：其使用的机器学习模型可以自动检测和标记潜在的虚假信息。这些模型分析推文的内容、用户的行为模式、推文的传播方式等来识别不实信息。 3.Bot检测：专门的算法来识别和删除由自动程序（即机器人）发布的虚假信息。这些算法分析账户的行为模式，以识别并封禁恶意账户。
百度	1.ERNIE（文心大模型）：百度开发的 ERNIE 大模型具备强大的自然语言理解能力，能够用于检测虚假信息、新闻审核等任务。ERNIE 模型通过大规模预训练和特定领域的微调，能够准确地理解和处理中文文本，从而帮助百度识别和过滤虚假信息。 2.Baidu AI内容审核：百度的内容审核系统结合了文本分析、图像识别、视频识别等多种技术，来实时检测和标记潜在的虚假信息。这些技术利用深度学习模型来分析内容的真实性，过滤掉有害或不实的信息。
TikTok	1.检测虚假信息的技术：TikTok 使用一系列的人工智能技术，包括自然语言处理和计算机视觉，来检测平台上的虚假信息。其内容审核系统能够分析视频和评论，识别出不实信息。 2.与事实核查组织合作：TikTok 也与全球多家事实核查机构合作，通过多层次的审核流程，确保平台内容的真实性。
YouTube	1.自然语言处理和视频分析：YouTube 利用 Google 的深度学习和 NLP 技术，自动检测标题、描述和视频内容中的虚假信息。 2.推荐系统调整：YouTube 的推荐算法也经过调整，减少向用户推送被标记为误导性或虚假信息的视频，从而降低虚假内容的传播速度

1.2.3关注AI生图的重要性

对于普通人：可以避免被AI生成的虚假图像欺骗，并偶尔利用相关工具绘图。

对于创作者：可以使用AI工具提升效率，快速生成所需内容。

对于技术人员：了解AI生成图像的技术和能力，开发新的应用和工具。

二、AI生成图像的历史回顾

2.1早期发展

20世纪70年代，艺术家哈罗德·科恩发明了AARON，可通过机械臂作画，这是最早的AI生图工具。

2.2AI生成图像的里程碑

2012年，吴恩达的团队训练出能够生成“猫脸”的卷积神经网络（CNN）模型。
2015年，谷歌推出“深梦”（Deep Dream）图像生成工具，开启了梦幻图像生成的潮流。
2021年，OpenAI推出DALL-E模型，能够根据文本提示生成多样化的图像设计。

2.3AI生成图像的工作原理

AI生图模型属于多模态机器学习模型，通过大量图库和文本描述的深度神经网络学习，根据输入的指示生成符合语义的图片。

2.4“恐怖谷效应”的影响

AI生成图像在早期未被广泛接受，部分原因是由于“恐怖谷效应”，即仿真物在达到一定仿真程度后，会引起人们的排斥和恐惧。

2.5AI生成图像的“破圈”

2022年8月，AI绘画作品《太空歌剧院》获得美国科罗拉多州数字艺术竞赛一等奖，引发广泛关注和讨论。

三、AI生成图像的难点与挑战

3.1早期技术局限

早期AI生图模型难以准确生成“手”，导致出现大量“AI翻车”的案例。同时为了解决生成“手”的问题，业界开发了许多相关技术，如标记手掌和手指特征。

3.2局限性

AI生图模型通过学习图片描述和特征生成图像，但对于图片背后的含义和世界特征的理解仍有争议。

不同模型由于训练数据的差异，生成的图片风格和事物可能存在显著不同，且可能与现实不符。

3.3实践中AI生图“翻车”展示

在此次实践中，要求生成的是古装女性在课堂上睡着后醒来，且在过程中做了一个白马王子梦的话剧故事。但在生图过程中，虽然提示词中给的是“一个年轻古装女性”但生成的图片中，人物性别较为模糊，存在混淆视听的嫌疑。以下是“翻车”图片展示：

四、大模型辅助下的AI生图实践

4.1大模型辅助

如今大模型飞速发展，个人也算是体验过多种不同类型的大语言模型。其中比较推荐的有国内的文心一言以及国外的chatgpt。由于chatgpt是在python基础上开发研究的，因此使用其解读代码、生成代码往往相当高效且准确；国内文心一言对于中文长文本的处理能力也是相当强悍。

此外，通过Ollama在自己电脑上配置本地大模型也是一个不用外网就可实现接入大模型的好方法。

以下是使用ChatGPT调整得到的给定主题8幅图片的提示词。

场景	提示词
女主正在上课	古风，水墨画，一个黑色长发少女，坐在教室里，盯着老师，认真听讲，上半身，红色长裙，木制桌椅，古朴的教室，窗外绿树隐现。
开始睡着了	古风，水墨画，一个黑色长发少女，趴在课桌上，眼睛微闭，困倦，上半身，红色长裙，木制桌椅，教室中的其他同学专注听讲，窗外夕阳西下。
进入梦乡，梦到自己站在路旁	古风，水墨画，一个黑色长发少女，站在乡间小路旁，神情茫然，全身，红色长裙，身旁草木繁茂，小路蜿蜒通向远方，天空蓝如洗。
王子骑马而来	古风，水墨画，一位英俊的王子骑着白马，从远处走来，手持折扇，全身，青色锦袍，腰佩玉佩，身后随风飘扬的白色披风，小路旁花草摇曳。
两人相谈甚欢	古风，水墨画，一个黑色长发少女与王子并肩而立，交谈甚欢，彼此微笑，半身，红色长裙与青色锦袍交相辉映，背景是一片翠绿的竹林，阳光透过竹叶洒在他们身上。
一起坐在马背上	古风，水墨画，少女与王子共乘一匹白马，少女坐在前面，王子微微低头对她说话，全身，红色长裙与青色锦袍在风中飘动，背景是远山如黛，天空清澈如洗。
下课了，梦醒了	古风，水墨画，一个黑色长发少女，猛然从课桌上抬起头，眼神迷茫，上半身，红色长裙，木制桌椅，教室里其他同学陆续离开，阳光从窗户洒进来。
又回到了学习生活中	古风，水墨画，一个黑色长发少女，重新坐在课桌前，手中握笔，专注书写，上半身，红色长裙，木制桌椅，背景是墙上挂着的竹简与卷轴，窗外青翠的树叶在微风中摇曳。