fan_fan_feng-CSDN博客

将原来n_head分割乘Nx n_sub_head.对于每个头i，都有它自己不同的key,query和value矩阵: 𝑊𝑖𝐾,𝑊𝑖𝑄,𝑊𝑖𝑉。在多头注意力中，key和query的维度是 𝑑𝑘 ，value嵌入的维度是 𝑑𝑣 (其中key，query和value的维度可以不同，Transformer里面一般设置的是相同的)，这样每个头i，权重 𝑊𝑖𝑄∈𝑅𝑑×𝑑𝑘,𝑊𝑖𝐾∈𝑅𝑑×𝑑𝑘,𝑊𝑖𝑉∈𝑅𝑑×𝑑𝑣 ，然后与压缩到X中的输入相乘，得到 𝑄∈𝑅𝑁×𝑑𝑘,𝐾∈𝑅𝑁×𝑑𝑘,𝑉∈𝑅𝑁×𝑑𝑣 .

2024-06-10 23:02:53 1127

原创大模型基础——从零实现一个Transformer(1)

根据其所处的位置有不同的变种：邻接解码器嵌入位置是掩码多头注意力，特点是当前位置只能注意本身以及之前位置的信息；掩码多头注意力紧接的多头注意力特点是Key和Value来自编码器的输出，而Query来自底层的输出，目的是在计算输出时考虑输入信息。，又称 digram coding 双字母组合编码，是一种数据压缩算法，用来在固定大小的词表中实现可变⻓度的子词。作用于Transformer块内部子层的输出表示上，对表示序列进行层归一化。合并频次最高的子词对，合并成新的子词，并将新的子词加入到子词词表。

2024-06-07 22:41:34 958

原创小白学大模型——Qwen2理论篇

SWA指的是Sliding Window Attention，是一种注意力模式，用于处理长序列输入的问题。这里的mixture可能指的是这两种注意力机制的结合使用。在自然语言处理和编程语言处理中，分词器用于将文本分解成更小的单位（如词、字符或其他符号），这是理解和处理文本的基础步骤。：Grouped-query attention，它是一种插值方法，介于多查询和多头注意力之间，可以在保持接近多头注意力的质量的同时，达到与多查询注意力相当的速度。: 不多说，最主流的transformer架构，不变。

2024-05-16 23:41:40 2467 1

原创 datawhale动手学大模型应用开发-第六章-LLM 应用精选案例

为提高回答的准确性和可靠性，项目特别集成了RAG技术，该技术通过在生成回答前检索大量数据中的相关信息，有效提升了信息检索的精度并减少了误导性信息的产生。这一结合了检索和生成的方法确保了智能助手在信息提供上的准确性和权威性，使其成为用户处理海量数据时的有力工具。：利用检索到的文档作为上下文（Context），结合问题，生成一个prompt提交给大型语言模型（LLM），由其生成回答（Answer）。：将用户的查询向量化，并在知识库文档的向量索引中检索与查询最相似的top k个文档。

2024-04-28 23:26:10 485

原创动手学深度学习笔记（占坑）

动手学深度学习笔记（占坑）

2024-04-25 23:53:00 124

原创 datawhale动手学大模型应用开发-第五章-系统评估与优化

我们可以通过构造思维链，将 Prompt 构造成一系列步骤来尽量减少其能力限制，例如，我们可以构造一个两步的思维链，要求模型在第二步做出反思，以尽可能消除大模型的幻觉问题。由于大模型存在幻觉问题，有时我们会怀疑模型回答并非源于已有知识库内容，这对一些需要保证真实性的场景来说尤为重要，我们可以要求模型在生成回答时注明知识来源，这样可以避免模型杜撰并不存在于给定资料的知识，同时，也可以提高我们对模型生成答案的可信度。：评估系统回答中出现的幻觉内容的比例，即回答与检索到的知识片段之间的一致性。

2024-04-25 23:46:05 887

原创 datawhale动手学大模型应用开发-第四章-构建RAG应用

这里以重写一个支持智普api接口的LLM 组件# 继承自 langchain.llms.base.LLM# 默认选用 ERNIE-Bot-turbo 模型，即目前一般所说的百度文心大模型# 温度系数# API_Key'''构造 GLM 模型请求参数 messages请求参数：prompt: 对应的用户提示词'''# 首先定义一个返回默认参数的方法@property"""获取调用Ennie API的默认参数。

2024-04-24 23:29:44 409

原创 datawhale动手学大模型应用开发-第三章-搭建知识库（未完）

向量数据库是用于高效计算和管理大量向量数据的解决方案。向量数据库是一种专门用于存储和检索向量数据（embedding）的数据库系统。它与传统的基于关系模型的数据库不同，它主要关注的是向量数据的特性和相似性。在向量数据库中，数据被表示为向量形式，每个向量代表一个数据项。这些向量可以是数字、文本、图像或其他类型的数据。向量数据库使用高效的索引和查询算法来加速向量数据的存储和检索过程。

2024-04-22 23:58:12 522

原创 datawhale动手学大模型应用开发-第二章-使用 LLM API 开发应用

要求模型对长篇文章或文本进行摘要。

2024-04-20 15:15:08 1047

原创 datawhale动手学大模型应用开发-第一章-大模型简介

这篇文章是关于大模型应用开发的入门指南，提供了对常见闭源和开源大模型的简介，包括它们的参数量、架构类型、词表上下文长度等技术细节。文章还介绍了检索增强生成（RAG）的基本原理和工作流程，这是一种结合信息检索和自然语言生成的方法，用于生成符合用户需求的文本结果。特别地，文章详细阐述了LangChain框架，这是一个用于构建由语言模型驱动的应用程序的工具，它提供了模块化的组件和特定用例链，以实现数据感知和主动性。此外，文章还概述了大模型开发流程的关键步骤，包括设计、搭建整体架构、Prompt Engineeri

2024-04-16 20:24:07 908

原创大模型prompt-文章生成

情境引入（S）要生动有吸引力，挑战（C）部分要符合实际情况，触达底层矛盾，问题（Q）部分要能够激发出读者的好奇，答案（A）要切实可行，确保整个大纲结构完整，能够清晰传达信息。故事作为载体去论述一个观点，可以是一件事，也可以是一个人物（可以写成深度的人物搞，找出他的资料、找出最引人注目的场景，汇聚成一篇文章。跟观点文类似，不同的是把观点换成了故事，用多个主题相同、贴切的故事来论述同一件事。2）结尾时，最好能够给出一些方法论，不要光提意见，也要有实用的建议。Question（问题）：提出一个具体的问题。

2024-03-13 17:47:41 1008

原创大模型——理论基础——常用的Norm

这样的顺序对于训练更深的网络可能更稳定，因为归一化的输入可以帮助缓解训练过程中的梯度消失和梯度爆炸问题。比于LN，可以发现，不论是分母的方差和分子部分，都取消了均值计算，经作者在各种场景中实验发现，减少约 7%∼64% 的计算时间。通过上面三组实验，作者认为 Post-LN 的不稳定性部分来自于梯度消失以及初始化的时候，更新太大，陷入了局部最优，跑不出去了。都是根据模型的Encoder（N）和Decoder（M）层数计算出来的，通过如下方案，作者把模型的层数提升到了1000+。

2024-02-01 16:30:52 6055

原创大模型——推理优化——KV Cache

在本文中，我们将详细介绍KV Cache，这是一种大模型推理加速的方法。正如其名称所示，该方法通过缓存Attention中的K和V来实现推理优化。

2024-01-30 16:53:45 3000

原创 datawhale 大模型学习第十二章-大模型环境影响

气候变化：大语言模型（LLM）的训练和运行需要大量计算资源，导致显著的能源消耗和温室气体排放，加剧气候变化。能源消耗：训练LLM的计算过程消耗大量电力，间接增加了化石燃料的使用，从而产生二氧化碳排放。

2024-01-30 14:33:48 225

原创 RAG——应用——七个最常见的故障点

近日，国外研究者发布了一篇论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》，探讨了在实际工程落地RAG应用过程中容易出的七类问题。论文地址：https://arxiv.org/pdf/2401.05856.pdf。

2024-01-29 19:47:14 803

原创 datawhale 大模型学习第十一章-大模型法律篇

新技术与法律关系：大型语言模型（LLM）的出现引发了对现有法律适用性的探讨，尤其是在版权、隐私和公平使用等方面。互联网法律挑战：互联网的匿名性和无国界特性对法律的管辖权提出了挑战。法律与道德区分：法律具有强制执行力，而道德则依赖于社会共识和组织规范。

2024-01-29 10:09:11 296

原创 datawhale 大模型学习第九\十章-大模型有害性

在基于数据的策略中，继续使用150K个非毒性文档来训练DAPT，这些文档来自于OpenWebText。而在基于解码的策略中，使用PPLM来根据毒性分类器的梯度指导生成内容。系统的预测或生成的文本在目标概念（例如科学）与特定人群（例如男性或女性）之间展现出较强的关联性，而这种关联性对于某些群体来说更为明显。尝试了两种主要的缓解策略：一种是基于数据的，另一种是基于解码的。在2017年的研究发现，语言识别系统对非洲裔美国英语的表现不如对标准英语。虚假信息指的是不论意图如何，被误导性地呈现为真实的错误信息。

2024-01-28 20:23:36 375

原创 datawhale 大模型学习第八章-分布式训练

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。对于训练任务来说，“大”体现在两个方面：模型大和训练数据大。需要把模型拆成多个部分，并分布到不同的机器上训练，即模型并行；需要把数据拆成多个小的数据片，并分布到不同的机器上，即数据并行。

2024-01-27 21:30:31 364

原创 datawhale 大模型学习第六章-大模型之Adaptation

从语言模型的训练方式来说，例如GPT-3，训练语料通常是海量的，各种领域的，不针对任何特定任务的文本信息。这种方法的优点在于模型具有广泛的适用性，但也带来了一些挑战。格式不同：BERT训练过程中使用了MASK标记，而许多下游任务可能并不使用这些标记。自然语言推理任务（NLI）涉及两个句子的比较以产生单一的二进制输出主题变化：专业领域的时候，需要的文本或者话术都需要集中在专业领域。下游任务中出现了预训练中没有出现过的knowledge。原因有：1. 训练时多数据集已经和预测数据集不同。

2024-01-25 18:26:12 1135

原创 datawhale 大模型学习第五章-模型训练

自回归语言模型预测是一个条件分布：即根据1，2,。Decoder-only模型，它会产生（单向）上下文嵌入，更适合文本生成任务。：例如，GPT-3，单向上下文嵌入，在生成文本时一次生成一个token。Encoder-only模型，他是双向上下文嵌入，更适合分类任务。最后，通过微调，BART在分类和生成任务上都展示了强大的效果。例如，T5,利用双向上下文编码，利用单向上下文生成文本。)是基于Transformer的编码器-解码器模型。训练的时候用F16,跟新模型参数的时候用F32。

2024-01-23 22:37:55 1383

原创 datawhale 大模型学习第四章-新模型架构

混合专家模型通俗点讲就是：有N个专家，每个专家有各种的不同领域能力和模型参数，通过一个门控制机制来给不同专家分配权重，最终汇总所有专家的结果。输入： Thank you <X> me to your party <Y> week。就是在输入里面mask一些单子，然后在模型的输出里面吧mask掉的单词预测出来。目前大模型的规模已经到了极限（模型越大，需要训练资源和时间也就越长）输出：<X> for inviting <Y> last。2.每个专家模型可以放置在不同的GPU机器上。

2024-01-22 00:09:25 488

原创 datawhale 第三章-模型架构

分词的目的是将输入文本分成一个个词元，保证各个词元拥有相对完整和独立的语义，以供后续任务（比如学习embedding或者作为高级模型的输入）使用。

2024-01-21 00:03:04 899

原创大模型 RAG 优化收集一

问题2：如何让LLM回答出全面的粗粒度（跨段落）知识？问题1：如何让LLM简要、准确回答细粒度知识？LLM本来就有幻觉问题，回答得不会很精准。有人可能会问，那完全。

2024-01-20 23:18:57 479 2

原创大模型 RAG 面试篇

大模型 RAG面试题收集一

2024-01-19 17:16:09 1848

原创 datawhale 第二章-大模型的能力

GPT-3 作为一个语言模型，被训练来预测下一个词。并未明确针对特定任务进行训练。在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后GPT-3可以在某一些任务上面表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。

2024-01-16 20:28:03 869

原创 datawhale 大模型理论基础引言

语言模型其实是一个概率模型，给每一个句子列表计算一个概率值：例如：自回归语言模型(Autoregressive language models)将一个句子的概率的表示成多个条件概率的相乘。

2024-01-15 19:35:20 445

转载 tensorflow object-detection ImportError: cannot import name 'string_int_label_map_pb2'

# From tensorflow/models/protoc object_detection/protos/*.proto --python_out=.每次使用新解压出来的object_detection文件夹时都要重新运行这一句，否则运行demo时会出现找不到string_int_label_map_pb2的问题，查看label_map_util.py文件发现from object_de...

2019-03-06 14:10:02 8250

转载 RF、GBDT、XGboost特征选择方法

转载至：https://blog.csdn.net/u014035615/article/details/79612827RF、GBDT、XGboost都可以做特征选择，属于特征选择中的嵌入式方法。比如在sklearn中，可以用属性feature_importances_去查看特征的重要度, 比如： from sklearn import ensemble #grd ...

2018-10-11 11:23:06 3471

转载 Apache ab性能测试结果分析

转至：https://www.cnblogs.com/gumuzi/p/5617232.html一直以来我都是用Loadrunner去做性能测试。Loadrunner实际上是一个很重的性能测试工具。他的功能很全面，是一把很好的牛刀。　　如果我们只是需要对一个页面做简单的性能测试，使用Loadruner这把牛刀就不是一个很好的选择了。　　所以就找了把小刀－－ab来试试。这把小刀真的是轻巧...

2018-09-19 14:25:43 319

转载 Neo4j 第三篇：Cypher查询入门

转至：https://www.cnblogs.com/ljhdo/p/5516793.htmlNeo4j使用Cypher查询图形数据，Cypher是描述性的图形查询语言，语法简单，功能强大，由于Neo4j在图形数据库家族中处于绝对领先的地位，拥有众多的用户基数，使得Cypher成为图形查询语言的事实上的标准。本文作为入门级的教程，我不会试图分析Cypher语言的全部内容，本文的目标是循序渐进地...

2018-09-07 18:30:50 1607

转载 Neo4j 第二篇：图形数据库

转至：https://www.cnblogs.com/ljhdo/p/5178225.html在深入学习图形数据库之前，首先理解属性图的基本概念。一个属性图是由顶点（Vertex），边（Edge），标签（Lable），关系类型和属性（Property）组成的有向图。顶点也称作节点（Node），边也称作关系（Relationship）；在图形中，节点和关系是最重要的实体，所有的节点是独立存在的，...

2018-09-06 17:40:32 381

转载 Neo4j 第一篇：在Windows环境中安装Neo4j

转至：https://www.cnblogs.com/ljhdo/p/5521577.html图形数据库（Graph Database）是NoSQL数据库家族中特殊的存在，用于存储丰富的关系数据，Neo4j 是目前最流行的图形数据库，支持完整的事务，在属性图中，图是由顶点（Vertex），边（Edge）和属性（Property）组成的，顶点和边都可以设置属性，顶点也称作节点，边也称作关系，每个...

2018-09-06 17:12:04 372

转载真正的完全图解Seq2Seq Attention模型

转载公众号：https://mp.weixin.qq.com/s/0k71fKKv2SRLv9M6BjDo4w原创：盛源车机器学习算法与自然语言处理 1周前https://zhuanlan.zhihu.com/p/40920384作者：盛源车知乎专栏：魔法抓的学习笔记五分钟看懂seq2seq attention模型。本文通过图片，详细地画出了seq2seq+atten...

2018-08-14 14:39:36 57203 14

转载 TensorFlow实战——个性化推荐

转载请出处： http://blog.csdn.net/chengcheng1394/article/details/78820529请安装TensorFlow1.0，Python3.5 项目地址： https://github.com/chengstone/movie_recommender前言本项目使用文本卷积神经网络，并使用MovieLens数据集完成电影推荐的任务。推荐系...

2018-08-07 10:37:18 899

d2rq-0.8.1.zip

用c程序写的socket下载网页，有个url的网页死活下不下来