大模型基础

阿秋qqqqqq彭

已于 2023-10-01 16:37:42 修改

阅读量38

点赞数

文章标签：笔记

于 2023-09-28 07:54:10 首次发布

本文链接：https://blog.csdn.net/m0_55009307/article/details/133357409

版权

自然语言处理（NLP）

15年的 Advances in Natural Language Processing 综述详细介绍了NLP的迭代

NLP的任务：

1、进行词性标注（Part of speech）

2、命名实体识别（Named entity recognition）：识别出特定的人名、日期、地点等

3、共指消解（Co-reference）：代词与上文出现的事物进行替代识别

4、基本依赖关系（Basic dependenxies）：主谓宾等关系

完成这些完任务后，我们可以将NLP应用到不同的领域，如搜索引擎上。

以下是自然语言处理所所能做的事：

结构化的知识（Structural Knoeledge）：

如何从文本中抽取知识，从而理解文本中的关键信息，比如三元组来表示两个实体间的关系

知识图谱（Knowledge Graph）：

将丰富多彩的知识以结构化和可连接的方式呈现，让计算机能容易理解、查询和推理这些知识。

机器阅读（Machine Reading）能够从文本中提取出结构化知识，结构化知识能够扩大和更新知识图谱

词表示（Word Representation）

能够将词符号转换为机器可理解的意思

目标：

1.能够计算词之间的相似性，motel与hotel

2.能够推断词之间的关系，China；Beijing与Japan ; Tokyo

同义词或上位词的一些问题：忽略同义词之间的细微差别；忽略了新词的意思；主观因素；数据吸收；需要大量的人工维护词表

方法：

1、首先提出的是唯热编码（One-Hot），它对于文档编码是有效的，可以唯一标识一个文档中几百个词，但

缺点是一些有相近意思的词之间的相似度会均为0，因为编码的唯一性，各个向量之间是两两正交的。

2、为了解决以上问题，提出了上下文表示（Contextual representation），利用这个词其上下文出现的词的出现频率或重要性进行编码，利用这个稠密向量算出两个词之间的相似度。

缺点是当随着词表中单词数目的增多，导致需要大量的存储空间，且对于出现频率较低的词，其上下文的词也很少导致模型的效果不好

3、解决以上问题，深度学习或大模型采用的是单词嵌入（Word Embedding）的方式，是一种分布表示（Distributed Representation）的方法，具体为：为每个单词构建一个稠密向量（dense vector），这个稠密向量是从大范围的语料库中学习的，学习方法代表作为Word2Vec，后面会进行介绍。

语言模型（Language Model）

它是一个预测即将到来的词的任务

他是一个在一个单词序列上的概率分布

目标：

1、计算一个单词序列的联合概率分布（一系列单词序列能够构成句子的概率）

2、计算即将出现单词出现的概率

对第一点的理解：

为什么计算一系列单词组成句子的概率是求它的联合概率分布？

因为一个句子的构建是一个序列生成的过程

假设我们有一系列单词 w_1, w_2, w_3, ..., w_n，它们组成一个句子。句子的生成过程可以看作是逐个生成单词的过程，每个单词的生成都依赖于前面已生成的单词。

根据条件概率的定义，一个句子的概率可以表示为：

P(w_1, w_2, w_3, ..., w_n) = P(w_1) \cdot P(w_2|w_1) \cdot P(w_3|w_1, w_2) \cdot ... \cdot P(w_n|w_1, w_2, w_3, ..., w_{n-1})

其中，P(w_i|w_1, w_2, w_3, ..., w_{i-1})表示在已知前面所有单词的情况下，生成第 i 个单词的条件概率；\cdot为概率论中的乘法运算。

由此我们得到语言概率的公式：

$P(w1,w2,...,wn) = \prod p(wi|w1,w2,...,wi-1)$

方法：

1.N-gram Model:

经典的方法，是基于统计的，其中 n-gram 表示一个文本系列中的连续n个项的集合。该模型的原理是：统计这个n个项集合出现的频率，并使用这一频度预测接下来的词。注意：这里只考虑带上要预测的单词后的n个词集合，他是基于马尔可夫的猜想的，例如：

4-gram ：

$p(wj | never,too,late,to ) \approx p(wj | too,late,to)= \frac{count(too,late,to,wj)}{count(too,late,to)}$ , 其中的never 就没再考虑了。

count() 就是表示我们在大规模的语料库里对（）中n个单词组成的句子出现频度的统计量

缺点：

1.需要存储所有出现的 n-grams 情况，因此模型的大小为 O(exp(n))

2.n 越大，统计的频度越稀疏，因此 n 一般取1 or 2

2. Neural Language Model：

是基于deeping learning的，首先将这n个单词，第n 个为要预测的，前n-1 个各单词利用 distributed representation 方法得到各单词的低维上下文向量，再将各个低维向量拼接在一起形成一个高维上下文向量，由非线性函数 tanh 等许多操作得到最终向量并用来预测第n 个单词