2024年是AI元年,正好我在AI公司里面工作,对AIGC有着几年的研究,接下来把我这对AIGC的学习经验毫无保留的给大家分享一下
AIGC 的简要介绍
在狭义上,AIGC是指利用AI自动生成内容的生产方式,比如自动写作、自动设计等。在广义上,AIGC是指像人类一样具备生成创造能力的AI技术,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据。
比如现在很火的如下两个模型:
ChatGPT:一个语言模型,能够很快的理解并回复人类的问题
DALL-E-2:能够在根据文字创作一幅对应的高质量图像,如图 所示
AI GC做了哪事情?
1、从大数据中提取信息
2、根据提取到的信息生成对应的内容,如文本,视频,图品,音乐等等
之前的工作:没有大量的数据和硬件支撑,而现在有了AIGC,可以处理大量的数据、优秀的基础模型、强有力的硬件计算资源,比如图像模型:stable
diffusion,同样在 2022 年提出,且拥有很强的图像生成能力
AIGC的基本原理
AIGC是指利用等GAN(生成对抗网络)、Transformer模型、Diffusion模型等基础生成算法模型、预训练模型以及CLIP(跨模态学习模型)等AI技术,通过对既有数据的学习和发散,基于与人类交互所确定的主题,由AI算法模型完全自主、自动生成对应内容,从而帮助互联网、传媒、电商、影视、娱乐等行业进行文本、图像、音视频、代码、策略等多模态内容的单一生成或跨模态生成,以提升内容生产效率与多样性。
当然AIGC的地城原理和逻辑远不止上面说的这么简单.
目前AIGC从GPT1到GPT 4.0,强大的处理能力一次又一次得到了提升!
GPT-1:核心思想是基于大量未标注数据进行生成式预训练学习,然后对其进行微调以适应特定任务 。
GPT-2:GPT-1的问题是微调下游任务的可转移性不足,且Fine-
Tuning层不共享。为了解决这个问题,OpenAI在2019年引入了GPT家族的新成员:GPT-2。
GPT-3将模型大小增加到1750亿参数(比GPT-2大115倍)并使用45TB的数据进行训练。
算力支持
现在发展成熟的硬件、分布式训练、云计算等都为大模型的产生提供了很大的支持
举个例子
GAN 是 AIGC 最常用的机器学习算法之一,另外一个常用的是 diffusion
model,在某些方面很像,比如也是适合基于原始内容(噪音)来生成内容
在原始图像基础上,用 GAN 生成的一些实例
CNN的网络结构分为3部分:输入层,隐藏层与输出层。
CNN的输入层是直接输入二维图像信息,这一点与传统的神经网络输入层需要输入一维向量有所不同。
隐藏层由三种网络构成 ——
卷积层(包含激活函数),池化层,全连接层。
卷积结构可以减少深层网络占用的内存量,其三个关键的操作,其一是局部感受野,其二是权值共享,其三是pooling层,有效的减少了网络的参数个数,缓解了模型的过拟合问题。
AIGC的模型
海外模型:Stable Diffusion,DALL-E2,Imagen Video,Make-A-Video。
国内模型:太极,文心一格,太乙Stable Diffusion,CogView,MSRA,ModelScope,MagicMix,DPM-Solver。
AIGC 的应用场景
基于机器学习的AIGC技术,主要利用机器学习和深度学习算法,通过对大量的语言数据进行学习和模拟,实现对自然语言的理解和生成。这种技术的优点是生成的内容比较自然、流畅,但是需要大量的语料数据进行训练。例如,OpenAI的GPT-4模型,就是利用这种技术来生成文章。
举个例子
文字内容生成
AIGC可以生成文章、新闻、博客、评论、对话等文字内容。它可以根据输入的提示或问题生成相关的文本,并模拟人类的语言风格和表达方式,
图像内容生成
AIGC可以生成图像、插图、艺术作品等。例如,2DALL-
E是一个图像生成模型,可以根据描述生成与之相关的图像。
提示词:
一只拟人化的非常可爱的大头蜥蜴,穿着牛仔服,在沙漠里,烈日当头,史诗级灯光,悠闲的散步,ful lbody全身照,一张超写实的照片。
效果:
比如,当面对一个新的审计领域时,可以通过与ChatGPT的互动对话,快速梳理出行业背景信息,整理出实施方案的框架;当审计已经完成了初步审计后,可以将审计发现用WPS整理成markdown格式,再由AI快速生成演示PPT,用于向领导及被审计单位汇报相关审计发现
音频内容生成
AIGC可以生成音乐、声音效果、语音等。例如,3.WaveNet是一个音频合成模型,可以生成逼真的语音
比如,我们输入上面提到的那首已被用户重制了的《只因你太美》的歌词:
输入歌词时,推荐用“Verse”、“Chorus”等词汇标注出每一个歌词段落,这样会让生成的歌曲的结构更符合我们的预期。
视频内容生成
AIGC可以生成虚拟角色、动画、视频剪辑等。例如,通过过Sora,输入:龙年春节,红旗招展人山人海。产生视频特效:
艺术创作
AIGC可以生成艺术作品,如绘画、图像编辑、风格转换等。例如,DeepArt是一个基于神经网络的艺术生成工具,可以将输入的图像转换为具有不同艺术风格的图像。
如何AIGC
了解地城的核心技术,AIGC技术的实现涉及多个方面,包括机器学习、计算机视觉、自然语言处理、优化算法等。
AIGC不仅仅是一个挑战,它也是一个机遇。只有不断学习和适应,才能在这个变化的时代中保持竞争力。程序员开发者将迎来一个更加充满挑战和机遇的新时代。在这个时代里,程序员需要不断学习和创新,以适应不断变化的技术环境和社会需求。
所以,2024年,人人都是AI工程师,干就对了!
最后想说
AIGC(AI Generated
Content)技术,即人工智能生成内容的技术,具有非常广阔的发展前景。随着技术的不断进步,AIGC的应用范围和影响力都将显著扩大。以下是一些关于AIGC技术发展前景的预测和展望:
1、AIGC技术将使得内容创造过程更加自动化,包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率,降低成本。2、在游戏、电影和虚拟现实等领域,AIGC技术将能够创造更加丰富和沉浸式的体验,推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念,提高创意过程的效率。
1、AIGC技术将使得内容创造过程更加自动化,包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率,降低成本。2、在游戏、电影和虚拟现实等领域,AIGC技术将能够创造更加丰富和沉浸式的体验,推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念,提高创意过程的效率。
未来,AIGC技术将持续提升,同时也将与人工智能技术深度融合,在更多领域得到广泛应用。这是一位SD资深大神整理的,100款Stable Diffusion超实用插件,涵盖目前几乎所有的,主流插件需求。
这份完整版的AI绘画(SD、comfyui、AI视频)整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
全文超过4000字。
我把它们整理成更适合大家下载安装的【压缩包】,无需梯子,并根据具体的内容,拆解成一二级目录,以方便大家查阅使用。
单单排版就差不多花费1个小时。
希望能让大家在使用Stable Diffusion工具时,可以更好、更快的获得自己想要的答案,以上。
如果感觉有用,帮忙点个支持,谢谢了。
想要原版100款插件整合包的小伙伴,可以来点击下方插件直接免费获取
100款Stable Diffusion插件:
面部&手部修复插件:After Detailer
在我们出图的时候,最头疼的就是出的图哪有满意,就是手部经常崩坏。只要放到 ControlNet 里面再修复。
现在我们只需要在出图的时候启动 Adetailer 就可以很大程度上修复脸部和手部的崩坏问题
AI换脸插件:sd-webui-roop
换脸插件,只需要提供一张照片,就可以将一张脸替换到另一个人物上,这在娱乐和创作中非常受欢迎。
模型预设管理器:Model Preset Manager
这个插件可以轻松的创建、组织和共享模型预设。有了这个功能,就不再需要记住每个模型的最佳 cfg_scale、实现卡通或现实风格的特定触发词,或者为特定图像类型产生令人印象深刻的结果的设置!
现代主题:Lobe Theme
已经被赞爆的现代化 Web UI 主题。相比传统的 Web UI 体验性大大加强。
提示词自动补齐插件:Tag Complete
使用这个插件可以直接输入中文,调取对应的英文提示词。并且能够根据未写完的英文提示词提供补全选项,在键盘上按↓箭头选择,按 enter 键选中
提示词翻译插件:sd-webui-bilingual-localization
这个插件提供双语翻译功能,使得界面可以支持两种语言,对于双语用户来说是一个很有用的功能。
提示词库:sd-webui-oldsix-prompt
提供提示词功能,可能帮助用户更好地指导图像生成的方向。
上千个提示词,无需英文基础快速输入提示词,该词库还在不断更新。
以后再也不担心英文写出不卡住思路了!
这份完整版的AI绘画(SD、comfyui、AI视频)整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】