大语言模型课堂笔记

最新推荐文章于 2024-10-02 10:53:34 发布

2401_86271557

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量432

点赞数 5

文章标签：笔记

本文链接：https://blog.csdn.net/2401_86271557/article/details/141023891

版权

一、大型语言模型（LLM)理论简介

（一）、大型语言模型的概念

大型语言模型是一种基于深度学习算法的自然语言处理模型，它通过对海量的文本数据进行学习，从而能够理解和生成自然语言。

（二）、技术原理

1. 神经网络架构：通常采用 Transformer 架构，它利用多头注意力机制来有效地捕捉输入文本中的长距离依赖关系。

2. 预训练：在大规模的无标注文本上进行无监督学习，学习语言的统计规律、语法结构和语义表示。

3. 参数优化：使用反向传播算法来更新模型的参数，以最小化预测结果与真实结果之间的差异。

（三）、训练数据

数据的规模和质量对模型的性能至关重要。这些数据来源广泛，包括互联网上的网页、书籍、新闻文章等。

（四）、语言理解能力

1. 词法分析：理解单词的含义、词性和形态变化。

2. 句法分析：解析句子的结构，确定句子中词语之间的关系。

3. 语义理解：提取文本的语义信息，理解句子的真正含义。

（五）、语言生成能力

能够根据给定的提示或上下文生成连贯、有逻辑的自然语言文本。

（六）、应用场景

1. 智能客服，自动回答用户的问题。

2. 文本自动生成，如文章写作、故事创作。

3. 机器翻译，提供更准确和自然的翻译结果。

（七）、挑战与展望

1. 计算资源需求巨大，训练和运行成本高。

2. 模型的解释性较差，难以理解其决策过程。

3. 可能存在伦理和社会问题，如生成虚假信息、歧视性言论等。

未来，随着技术的不断进步，大型语言模型有望在性能、可解释性和安全性等方面取得更大的突破，为自然语言处理领域带来更多的创新和应用。

二 Stable Diffusion图像生成方法

（一）、图生图功能初识

1. 传统意义上的喂参考图：模型根据提供的提示内容绘图，仅靠简短提示词难以满足实际需求，而图像能承载比文字更多的信息。图生图会自动从参考图上提取像素信息作为特征向量映射到绘图结果上，能最大程度还原参考图中的提示信息，实现更稳定准确的出图效果，即将提示词和参考图中的图像信息综合考虑进行绘图。

2. 真正强大的图像重绘：图生图是直接根据现有图片进行优化调整，省去了前期文生图的抽奖过程，直接在现有图像约束基础上进行二次重绘。配合参考图进行图生图时需先将参考图逆向推导为潜空间的数据，再和提示词综合考虑绘制成图像，因此会占用更多系统资源，参考图尺寸越大，逆向推导消耗资源越多。Stable Diffusion 中的图生图提供了丰富操作工具，如蒙版、局部重绘等可控制只对图像特定部分区域重绘，还能通过选择不同绘图模型和调整图像尺寸实现画风转换、图像无损放大等玩法。

（二）、图生图工具解析

在 webui 的功能导航栏中选择图生图模块，页面布局和文生图类似，有提示词输入框、操作按钮和参数设置项，多了提示词反推、支持上传图片的二级功能模块和对应参数设置项。

1. 提示词反推：

- clip 反推：推导出的文本倾向于自然语言描述方式，可描述出画面中对象间的关系。

- deepbooru 反推：推导结果更多是单词或短句，类似平时书写提示词的方式，更倾向于描述对象特征。两种反推方式得到的提示词都包含不少错误标签，需人工二次筛选。也可使用秋叶整合包中自带的 tagger 插件反推提示词，其准确度和稳定性更高，还提供关键词分析和排名展示。

2. 二级工具栏概览：图生图模块内置的二级工具栏，每款工具都是在上一个工具基础上衍生，所有二级工具围绕图像重绘、手绘涂鸦和蒙版选区三个基础功能重组，webui 作者将实际操作场景进行细分，方便使用。

3. 图生图工具：操作与文生图基本相同，支持额外上传参考图并增加了图生图专属参数。

- 重绘幅度：类似 midjourney 中的 iw 参数，控制在原图基础上重绘的发散性程度，数值越高重绘过程越自由，与原参考图差异性越大，生成图像越倾向模型自身绘图风格。通常将数值控制在 0.4-0.8 之间，以维持参考图控图效果并保证重绘后不会变化太强烈，更多场景是配合其他功能项灵活调节。

- 重绘尺寸：可直接设置图像宽高或设置图像缩放倍数来调节重绘后的图像尺寸。默认会自动带入当前参考图的宽高数值，拖动尺寸滑块可在参考图上预览重绘后的图像范围。

- 缩放模式：提供拉伸、裁剪、填充等方式，可分为两种场景使用。当图像长宽比变化时，用于处理变形方式；当图像长宽比例不变时，多数情况用于图像等比放大。若重绘后的图像尺寸和原图完全一致，几种缩放模式使用无区别。

以使用 Stable Diffusion 生成特定图片为例，步骤如下：

1. 选择近似的模型，如要生成一张经过真人模型重新渲染的《尼尔：机械纪元》中 yorha2b 的图片，脸部干净且无多少细节，可尝试 dosmix 或 realdosmix 这种“伪”真人模型，经多次尝试 realdosmix 模型较合适。

2. 用“图生图”功能反推提示词，上传图片后选择“反推提示词”，让 ai 识别图片并打上标签。Stable Diffusion 提供了 clip 反推和 deepbooru 反推两种工具，个人感觉 deepbooru 反推提示词更好用。

3. 控制网络提取图片细节，将反推提示词输入文生图，选“控制网络”并启用（guess mode 建议开启），预处理器选择 canny，模型选择 control_canny-fp16，权重尽量接近 1，调整 canny low threshold 和 canny high threshold（20-100 之间选取尝试）以选择满意效果，然后点击预览可看到系统提取的细节。

4. 选择 lora 使面部更好看，如选择 japanese dolllikeness，权重 0.3。

5. 点击生成，系统会在原图细节框架下生成新照片。若生成图片的某些细节不满意，可修改提示词后再次生成，如增加“((black_long_skirt))”“(light_smile)”“((tightfittingskirt))”等提示词，让 yorha2b 穿上黑色长裙且紧身并莞尔一笑。

此外，Stable Diffusion 模型运作原理如下：它不是单一的文生图模型，而是多个模型组成的运作系统，其中的技术可拆解为三个结构。

1. clip text 文本编码器：用于解析提示词的 clip 模型，由 openai 公司开发，包括文本编码和图像编码部分，可提取文本和图像特征，通过搜集大量网络上的图像和文字信息对其训练，能实现文本和图像的对应关系，在 sd 模型运作过程中，可提取提示词文本部分的特征传递给图像生成器，让模型理解输入的提示词内容，从而达到文本控制图像生成的目的。

2. diffusion 扩散模型：用于生成图像的 u-net 和 scheduler。其中 u-net 是用于生物医学图像分割的神经网络模型，辅助提取并解构训练图像的特征，使模型出图结果更精确；scheduler 用来定义使用哪种算法运行程序，可定义降噪的步骤、是否具备随机性、查找去噪后样本的算法等。

3. vae 模型：全称是 variational autoencoder 变分自动编码器，作用是将高维数据（像素空间）映射到低维空间（潜空间），实现数据的压缩和降维，由编码器和解码器两部分组成，编码器用于将图像信息降维并传入潜空间中，解码器将潜在数据表示转换回原始图像，而在潜在扩散模型的推理生成过程中只需用到 vae 的解码器部分，在 webui 中其效果类似模型的调色滤镜，可修饰最终图像的色彩和质感。