![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AIGC
文章平均质量分 94
T1.Faker
此人很懒,什么都没有写
展开
-
用ControlNet+Inpaint实现stable diffusion模特换衣
删除任何内容填充任何内容替换任何内容删除任何3D删除任何视频- 点击一个对象- 点击一个对象- 点击一个对象- 单击源视图的第一个视图中的对象- 点击视频第一帧中的对象- 分割模型SAM将对象分割出来- SAM将目标分割出来- SAM将目标分割出来- SAM将对象分割出来(使用三个可能的掩码)- SAM将对象分割出来(使用三个可能的掩码)- 修复模型填补“窟窿”- 输入文字提示- 输入文字提示- 选择一个掩码- 选择一个掩码。原创 2024-05-24 16:29:02 · 769 阅读 · 1 评论 -
Stable Diffusion模型概述
在Stable Diffusion v1中,VAE文件用于改善眼睛和面部的效果。它们是我们刚刚讨论的自动编码器的解码器。通过进一步微调解码器,模型可以呈现更精细的细节。你可能意识到我之前提到的并不完全正确。将图像压缩到潜在空间确实会丢失信息,因为原始的VAE没有恢复出精细的细节。相反,VAE解码器负责绘制精细的细节。这篇文章不完整,没有解释分类器免费引导(CFG),这是AI艺术家每天都在调整的一个值。为了理解它是什么,我们首先需要谈谈它的前身,分类器引导…原创 2024-01-02 08:56:14 · 2351 阅读 · 1 评论 -
Meta-Transformer:基于Transformer的多模态感知,融合Token化与共享编码
论文标题:Meta-Transformer: A Unified Framework for。原创 2023-08-02 15:16:08 · 1676 阅读 · 0 评论 -
利用RLHF优化大模型:提升性能与应用能力
随着数据科学和人工智能领域的不断发展,大型语言模型和RLHF作为强大的工具正逐渐成为各种领域的重要组成部分。通过预训练和微调,大型语言模型能够具备丰富的语言表达能力,而RLHF则能够根据人类反馈持续改进模型的性能,使其更加智能和适应不同任务。然而,我们也必须认识到RLHF仍然面临着一些挑战,如可扩展性、人类偏见、解释性等问题。解决这些问题需要跨学科的研究和合作,以确保RLHF的应用能够安全、可靠、高效地应对现实世界的挑战。原创 2023-07-25 10:05:31 · 944 阅读 · 0 评论 -
大模型技术发展概述 - (一)
1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力,在儿童早期发展,并随着一生的成长而演变。然而,机器要想像人类一样理解和使用语言进行交流,需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。原创 2023-07-12 15:32:25 · 1047 阅读 · 3 评论 -
大模型技术发展概述 -(三)
5. 适应性调整LLM5.1 指令(Instruction)调整5.1.1 格式化实例构建5.1.2 指令(Instrcution)调整策略5.1.3 指令调整的效果5.2 对齐调优5.2.1 对齐的背景和标准5.2.2 收集人类反馈5.2.3 从人类反馈中进行强化学习5.3 高效微调5.3.1 参数高效微调方法5.3.2 LLM的参数高效微调。原创 2023-07-12 15:20:17 · 426 阅读 · 0 评论 -
大模型技术发展概述 -(四)
6. 使用方法6.1 上下文学习6.1.1 提示形式6.1.2 示范设计6.1.3 潜在机制6.2 CoT提示6.2.1 CoT下的上下文学习6.2.2 CoT进一步讨论7. 性能评估7.1 基本评估任务7.1.1 语言生成7.1.2 知识利用7.1.3 复杂推理7.2 先进能力的评估7.3 公共基准和实证分析。原创 2023-07-12 15:19:34 · 382 阅读 · 0 评论 -
大模型技术发展概述 -(二)
4. LLM预训练4.1 数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLMs的影响4.2 常用的LLM架构4.2.1 主流架构4.2.2 详细配置4.2.3 预训练任务4.3 模型训练4.3.1 优化设置4.3.2 可扩展训练技术。原创 2023-07-12 15:18:46 · 603 阅读 · 1 评论 -
LangChain入门指南
在日常生活中,我们主要致力于构建端到端的应用程序。有许多自动化机器学习平台和CI/CD流水线可以用来自动化我们的机器学习流程。现如今大模型的出现,如果我们想要借助OpenAI或hugging face创建一个LLM应用程序,在自己的本地部署并使用,但是手动安装大模型步骤太繁琐了,而且涉及到的环境,编译接口集成问题太多了,🚀相对比之下,LangChain简化了LLM模型的集成和开发过程,提供了更高的开发效率和易用性,同时保持了可扩展性和灵活性。原创 2023-06-19 15:00:01 · 2516 阅读 · 0 评论 -
生成式AI - 关键技术历史和发展
生成式模型在人工智能领域有着悠久的历史。隐马尔可夫模型(Hidden Markov Models,HMMs)和高斯混合模型(Gaussian Mixture Models,GMMs)是在上世纪50年代首次开发出来的。这些模型生成了序列数据,如语音和时间序列。然而,生成式模型直到深度学习的出现后才取得了显著的性能改进。原创 2023-06-15 15:05:15 · 1151 阅读 · 0 评论 -
脚踩Midjourney、Stable Diffusion,谷歌StyleDrop真要杀疯了!
最近,谷歌发布了一款引人瞩目的AI绘画工具——StyleDrop。这个工具通过学习特定的艺术风格,能够根据文字描述一键生成与之相同风格的图片,简直让人惊叹不已。这个新工具在艺术和设计领域掀起了一股热潮!AI的力量实在是令人疯狂,正在悄然改变着艺术设计的游戏规则。只需提供一张参考图,StyleDrop就能立即生成各种相同风格的图片,相似度高达99.99%!它甚至能够轻松处理平面插画、水彩、油画、3D渲染以及各种材质,还有logo设计和品牌形象制作,只需几秒钟的时间……原创 2023-06-13 16:29:04 · 612 阅读 · 0 评论 -
一文读懂:LoRA实现大模型LLM微调
在深度学习中,权重矩阵通常具有完整秩,这意味着权重矩阵的行或列之间没有线性相关关系,也就是说,每个权重在模型中承担了不同的作用,没有冗余。权重矩阵具有完整秩的好处是,模型可以通过学习到的权重进行准确的预测和分类。通过使用低秩矩阵,我们可以降低参数的数量,减少计算和存储的开销,并且仍然保留了大部分原始权重矩阵的关键信息。因此,虽然预训练模型的权重在预训练任务中具有完整秩,但LoRA的作者指出,当预训练的大型语言模型适应新任务时,其固有维度很低,这是根据Aghajanyan等人的研究(2020)得出的。原创 2023-06-08 16:54:11 · 7932 阅读 · 4 评论 -
DragGAN图像生成原理与实现
深度生成模型,如生成对抗网络(GANs),在合成逼真图像方面取得了重大进展。然而,在实际应用中,对合成图像内容的可控性是一个关键需求。为了满足用户的多样化需求,理想的可控图像合成方法应该具备灵活性、精确性和普适性。先前的方法只能满足其中一些特性,因此我们的目标是在本研究中实现所有这些特性。先前的方法通常通过3D模型或依赖手动注释数据的监督学习来实现对GANs的可控性。然而,这些方法无法推广到新的对象类别,且在编辑过程中缺乏精确控制。原创 2023-05-30 17:05:52 · 3127 阅读 · 0 评论 -
基于大模型GPT,如何提炼出优质的Prompt
Prompt简单说就是驱动大模型进行表达文本描述。更详细地说,Prompt的基本定义包括以下几个要素:文本片段:Prompt可以是一个短语、一句话、一个段落,甚至是一个完整的问题。它通常是由人类设计者创建的,用于明确和传达特定的意图或任务要求。引导模型行为:Prompt的目的是引导模型执行特定的操作或生成特定类型的输出。这可以包括回答问题、完成任务、写作文章、生成代码等。Prompt需要明确指导模型的期望行为,确保生成的结果符合预期。上下文和约束。原创 2023-05-23 17:39:34 · 5442 阅读 · 2 评论 -
用故事解释人工智能算法原理 -计算机视觉
她说,CLIP就像是一位能读懂图画和文字的全能学者,无论你给他看的是一段文字描述,还是一幅图画,它都能理解其中的含义,并找出两者之间的关联。首先是DALL-E的原理,rita告诉大家,DALL-E就像一个超级画家,它能创造出任何人们想象中的图像,即使是最离奇的、从未见过的图像,它都能用画笔描绘出来。她知道,虽然DALL-E和CLIP的能力看起来非常强大,但它们的工作方式都是基于大量的数据进行学习,它们并不真正理解世界,只是通过模仿和关联已有的知识来应对新的挑战。他注意到,不同的颜色层需要不同的处理方式。原创 2023-05-22 11:10:20 · 494 阅读 · 0 评论 -
AI故事:智慧学校的人脸识别奇幻之旅
在一个名为智慧学校的小镇上,生物老师Rita和她的丈夫朝哥,一个富有创造力的艺术家,过着幸福美满的生活。他们的家庭与学校紧密相连,成为了一座小小的教育乐园。智慧学校里有一群充满朝气的学生,其中小枣是一个爱好科技的天才,小飞是一个数学才华横溢的学霸,而小美则是一位文艺气息十足的语文高手。他们是学校里的明星学生,受到数学老师霜姐、语文老师小钰和美术老师周姐的喜爱和赞赏。在这里插入图片描述然而,随着时间的推移,智慧学校也面临着新的挑战。学校的安全问题日益突出,为了确保学生们的安全,校长决定引入人脸识别技术。原创 2023-05-21 16:52:08 · 647 阅读 · 0 评论 -
一文实现部署AutoGPT
在当今的人工智能领域,大规模的预训练模型已经显示出他们在各种任务中的强大能力。其中,AutoGPT作为GPT系列的新成员,继承了其先辈们的优良传统,并引入了新的特性,为我们提供了新的机会和可能AutoGPT是OpenAI基于GPT-4架构开发的大规模预训练模型。它以Transformer为基础,通过在大量文本数据上进行无监督学习,让模型理解人类的语言,包括语法、情感、事实和一些常识。训练完成后,它可以生成连贯的、符合上下文的文本,甚至进行问题回答、写文章、编程等复杂任务。原创 2023-05-21 15:12:17 · 1309 阅读 · 0 评论 -
深度学习中的自动编码器
自编码器是一种用于数据压缩的人工神经网络,可以将输入数据压缩为较小的编码,然后将其解码回原始数据。它可以被视为一个无监督学习的算法,因为它不需要标记数据。原创 2023-04-06 10:30:46 · 770 阅读 · 0 评论 -
一文看懂“知识蒸馏”技术
过去几年中,深度学习已成为人工智能许多成功的基础,包括计算机视觉中的各种应用、强化学习。随着许多最新技术的帮助,包括残差连接和批量归一化,可以在强大的GPU或TPU集群上轻松训练数千层的非常深的模型。例如,使用数百万图像的流行图像识别基准测试可以在不到十分钟的时间内训练出ResNet模型;训练强大的BERT语言理解模型不需要超过一个半小时。大规模的深度模型取得了压倒性的成功,但是巨大的计算复杂度和大量的存储要求使得在实时应用中部署它们成为了一大挑战,尤其是在资源有限的设备上,比如视频监控和自动驾驶汽车。原创 2023-03-24 16:23:53 · 1864 阅读 · 0 评论 -
自监督学习技术综述
人工智能是当前科技领域最热门的话题之一。随着人工智能的发展,研究人员们不断探索新的技术手段和方法,以进一步提升人工智能系统的性能和能力。目前,人工智能的发展趋势主要包括大模型、多模态、知识蒸馏和自监督的结合。大模型是指通过增加模型参数、层数和计算资源,以提高模型的性能和表现。在自然语言处理和计算机视觉等领域,深度学习模型的表现和性能都得到了巨大的提升,这得益于大模型的应用和发展。多模态是指结合不同的数据来源,例如图像、文本、语音等,以提高模型的性能和能力。原创 2023-03-24 11:11:13 · 1247 阅读 · 0 评论 -
多模态技术综述
多模态机器学习是对计算机算法的研究,通过使用多模态数据集来学习和提高性能。多模式深度学习是一个机器学习子领域,旨在训练人工智能模型来处理和找到不同类型的数据(模式)之间的关系,通常是图像、视频、音频和文本。通过组合不同的模式,深度学习模型可以更普遍地理解其环境,因为一些线索只存在于某些模式中。想象一下情绪识别的任务。它不仅仅是看着人脸(视觉模态)。一个人的声音(音频模式)的音调和音高编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。原创 2023-03-21 16:23:57 · 2755 阅读 · 0 评论 -
从Transformer到ViT:多模态编码器算法原理解析与实现
Transformer架构是一种使用自注意力机制的神经网络,最初是由谷歌提出的,被广泛应用于自然语言处理和图像处理任务中。它是一种基于注意力机制的深度学习模型,适用于序列到序列的学习任务,例如机器翻译、语音识别、文本摘要等。多模态Transformer前部分encoder算法是近年来在计算机视觉领域备受瞩目的研究方向之一。它的出现极大地推动了多模态信息的融合与处理,被广泛应用于图像、文本等多种数据类型的处理。原创 2023-03-17 17:26:00 · 2976 阅读 · 4 评论 -
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
学习多模态的话题可以从深度学习的分类任务出发,因为分类任务是最直观的可以观察到不同模态的数据,通过输入数据到模型中,我们可以看到模型是如何学习到数据的特征向量的,同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。以飞浆的多模态视频分类模型为例,这个模型基于真实的短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比只使用视频图像特征,显著提升了高层语义标签的效果。原创 2023-03-16 17:24:40 · 10860 阅读 · 11 评论