大模型
文章平均质量分 95
T1.Faker
此人很懒,什么都没有写
展开
-
Stable Diffusion模型概述
在Stable Diffusion v1中,VAE文件用于改善眼睛和面部的效果。它们是我们刚刚讨论的自动编码器的解码器。通过进一步微调解码器,模型可以呈现更精细的细节。你可能意识到我之前提到的并不完全正确。将图像压缩到潜在空间确实会丢失信息,因为原始的VAE没有恢复出精细的细节。相反,VAE解码器负责绘制精细的细节。这篇文章不完整,没有解释分类器免费引导(CFG),这是AI艺术家每天都在调整的一个值。为了理解它是什么,我们首先需要谈谈它的前身,分类器引导…原创 2024-01-02 08:56:14 · 2211 阅读 · 1 评论 -
探索三种生成模型:基于DDPMs、NCSNs和SDEs方法的Diffusion
去噪扩散模型代表了计算机视觉领域的一个新兴主题,取得了在生成建模方面的显著成果。该模型分为正向扩散阶段和反向扩散阶段。在正向扩散阶段,逐步添加高斯噪声逐渐扰动输入数据;在反向扩散阶段,模型通过学习逆转扩散过程逐步恢复原始输入数据。尽管计算负担较大,但由于生成样本的质量和多样性,扩散模型受到广泛赞赏。在计算机视觉中,扩散模型已应用于多个任务,包括图像生成、图像超分辨率、图像修复、图像编辑、图像翻译等。此外,扩散模型学到的潜在表示在判别任务中也被发现是有用的,例如图像分割、分类和异常检测。原创 2023-11-28 17:06:05 · 789 阅读 · 0 评论 -
GLM: 自回归空白填充的多任务预训练语言模型
当前,ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点,探索它在对话模型中的创新之处。原创 2023-11-27 10:49:25 · 782 阅读 · 0 评论 -
探索稳定扩散技术中的LoRA权重激活:从模型微调到动漫风格图像生成的全过程
低秩适应(LoRA)技术是一种创新的方法,用于解决微调扩散器和大型语言模型(LLMs)的问题。在稳定扩散微调中,LoRA可应用于图像表示的交叉注意层,其中包含描述的潜在信息。为了理解模型微调的基本概念和方法,您可以参考Hugging Face扩散器的文档在这篇博客中,我们旨在介绍如何使用OpenVINO™优化构建Stable Diffusion + ControlNet管道,并启用LoRA权重,以便通过Stable Diffusion的Unet模型生成具有不同风格的图像。演示源代码基于。原创 2023-11-23 17:14:40 · 702 阅读 · 1 评论 -
深度学习模型训练计算量的估算
深度学习模型训练计算量的估算在当今的机器学习领域,深度学习模型的性能和先进性往往与其在更多计算资源上进行的训练有关。为了确保不同深度学习模型之间的准确比较,估算和报告训练过程中的计算资源使用情况变得至关重要。本文将探讨深度学习模型训练计算量的估算方法,并介绍了该领域的一些前沿。我们将重点介绍两种估算方法,以大家更好地理解和比较不同深度学习模型的训练计算量,这两种方法用于估算深度学习模型的训练计算量。原创 2023-11-23 14:58:32 · 417 阅读 · 0 评论 -
PEFT概述:最先进的参数高效微调技术
什么是PEFT什么是LoRA用例使用PEFT训练LLMs入门PEFT配置4位量化封装基础Transformer模型保存模型加载模型推理结论随着大型语言模型(LLMs)如GPT-3.5、LLaMA2和PaLM2在规模上不断扩大,对它们在下游自然语言处理(NLP)任务上进行微调变得越来越耗费计算和内存资源。参数高效微调(PEFT)方法通过仅微调少量额外的参数,同时冻结大多数预训练模型,解决了这些问题。这可以防止在大型模型中发生灾难性遗忘,从而使有限的计算资源能够进行微调。原创 2023-11-10 16:22:47 · 649 阅读 · 0 评论 -
大模型技术发展概述 - (一)
1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力,在儿童早期发展,并随着一生的成长而演变。然而,机器要想像人类一样理解和使用语言进行交流,需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。原创 2023-07-12 15:32:25 · 987 阅读 · 1 评论 -
大模型技术发展概述 -(三)
5. 适应性调整LLM5.1 指令(Instruction)调整5.1.1 格式化实例构建5.1.2 指令(Instrcution)调整策略5.1.3 指令调整的效果5.2 对齐调优5.2.1 对齐的背景和标准5.2.2 收集人类反馈5.2.3 从人类反馈中进行强化学习5.3 高效微调5.3.1 参数高效微调方法5.3.2 LLM的参数高效微调。原创 2023-07-12 15:20:17 · 402 阅读 · 0 评论 -
大模型技术发展概述 -(四)
6. 使用方法6.1 上下文学习6.1.1 提示形式6.1.2 示范设计6.1.3 潜在机制6.2 CoT提示6.2.1 CoT下的上下文学习6.2.2 CoT进一步讨论7. 性能评估7.1 基本评估任务7.1.1 语言生成7.1.2 知识利用7.1.3 复杂推理7.2 先进能力的评估7.3 公共基准和实证分析。原创 2023-07-12 15:19:34 · 357 阅读 · 0 评论 -
大模型技术发展概述 -(二)
4. LLM预训练4.1 数据收集4.1.1 数据源4.1.2 数据预处理4.1.3 预训练数据对LLMs的影响4.2 常用的LLM架构4.2.1 主流架构4.2.2 详细配置4.2.3 预训练任务4.3 模型训练4.3.1 优化设置4.3.2 可扩展训练技术。原创 2023-07-12 15:18:46 · 582 阅读 · 1 评论 -
一文读懂:LoRA实现大模型LLM微调
在深度学习中,权重矩阵通常具有完整秩,这意味着权重矩阵的行或列之间没有线性相关关系,也就是说,每个权重在模型中承担了不同的作用,没有冗余。权重矩阵具有完整秩的好处是,模型可以通过学习到的权重进行准确的预测和分类。通过使用低秩矩阵,我们可以降低参数的数量,减少计算和存储的开销,并且仍然保留了大部分原始权重矩阵的关键信息。因此,虽然预训练模型的权重在预训练任务中具有完整秩,但LoRA的作者指出,当预训练的大型语言模型适应新任务时,其固有维度很低,这是根据Aghajanyan等人的研究(2020)得出的。原创 2023-06-08 16:54:11 · 7143 阅读 · 4 评论