学习整理
日常学习整理
等风来随风飘
这个作者很懒,什么都没留下…
展开
-
GPT笔记
GPT笔记GPT与Transformer中解码器的结构类似。GPT由多个Transformer中的解码器块组成,与Transformer中解码器不同在于没有编码器-解码器注意力层。因此,GPT中解码器块由遮蔽自注意力层和基于位置的前馈神经网络。模型通过语言模型方法进行学习。将原始文本与译文用特殊符号隔开输入到模型中,学习每个位置输出的损失,最小化平均损失对模型进行训练应用:机器翻译:文本生成...原创 2021-12-31 19:58:42 · 835 阅读 · 0 评论 -
BERT笔记
BERT笔记BERT是预训练模型,为后续任务提供更快速、高效的初始化模型参数。BERT由多个Transformer中编码器层构成,其中每个层具有两个子层:多头注意力层和基于位置的前馈神经网络层。预训练方法:句子中随机选择15%的单词,其中80%设置为mask,10%随机替换为其他单词,10%不变。使用[SEP]将两个句子隔开输入到模型中,将[CLS]位置的输出通过softmax分类判断两个句子是否为相邻的句子结合上面两种方法应用:文本分类:将[CLS]位置的输出通过softmax分类判断原创 2021-12-31 19:49:41 · 397 阅读 · 0 评论 -
Transformer笔记
TransformerTransformer是由编码器和解码器组成,编码器和解码器是基于自注意力的模型叠加而成。编码器编码器由多个相同的层叠加而成,每个层都有两个子层:多头注意力层和基于位置的前馈神经网络层,每个子层都采用残差连接并进行层归一化解码器解码器由多个相同的层叠加而成,每个层都有三个子层:遮蔽多头注意力层、编码器-解码器注意力层和基于位置的前馈神经网络层,每个子层都采用残差连接并进行层归一化细节编码器输入为词向量与位置编码的和解码器中遮蔽多头注意力数据为前一个解码器层的输出,每个原创 2021-12-30 15:36:13 · 490 阅读 · 0 评论 -
注意力机制(Attention)笔记
注意力机制(Attention)注意力提示只将注意力引向感兴趣的一小部分信息生物学中的注意力提示:非自主性提示是基于环境中物体的突出性和易见性自主性提示是受到了认知和意识的控制,主观意愿推动,选择的力量更强大注意力机制在生成目标语言单词时,考虑前一时刻的状态和当前要生成的单词在源语言中的相关单词 。通过自主性提示(查询)与非自助性提示(键)引导至感官输入(值)。注意力分数计算:加性注意力缩放点积注意力自注意力观其伴,知其义分布式假设:相邻单词之间相似度较大自注意力计原创 2021-12-30 15:04:56 · 336 阅读 · 0 评论 -
静态词向量预训练模型笔记
静态词向量预训练模型Word2Vec词向量CBOW:通过上下文对目标位置词进行预测。Skip-gram:通过目标位置词对上下文词进行预测。分布式假设相邻的单词之间相似度较大负样本给定当前词与其上下文,最大化两者共现的概率。(负样本较多,使用此方法采用负样本,使得负样本数量变少)...原创 2021-12-30 09:29:04 · 498 阅读 · 0 评论 -
语言模型笔记
语言模型笔记语言模型描述自然语言概率分布的模型,可以计算一个词序列或一句话的概率,也可以在给定上下文的条件下对接下来可能出现的词进行概率分布的估计。马尔科夫假设下一个元素出现的概率只依赖于它前面n-1个元素N元语言模型当N很大时,计算概率的依赖很长,在文本数据中很少出现或没有,可能会出现零概率的情况。使用平滑(损有余而补不足),加1平滑,加δ\deltaδ 平滑(0≤δ≤10\leq\delta\leq10≤δ≤1)...原创 2021-12-29 21:22:45 · 136 阅读 · 0 评论 -
Word_segmentation分词笔记
分词笔记最大匹配前向最大匹配:给定最大匹配的数值,从左到右开始匹配最大匹配数值的句子中的字符,判断是否为单词,是则为分出的单词,并从分出的单词之后继续进行最大匹配,不是则将最大匹配数值减一继续判断,直至最大匹配数值为0,向右移动一位,继续最大匹配,直至句子中的字符全部完成判断。后向最大匹配规则与前向最大匹配一致,只是判断从句子的右侧开始到左侧结束。拼写纠错通过对拼写错误的单词进行:插入、删除和替换操作使其生成编辑距离较小的单词构成候选集,从候选集中选出最佳单词(通过极大化拼写错误的情况下得到最佳单词原创 2021-12-29 21:10:56 · 176 阅读 · 0 评论 -
01_机器学习概述整理
在人工智能技术中,机器学习是其中主要的方法,而深度学习是机器学习的最新发展。除了机器学习,人工智能技术还可以是基于符号、规则的专家系统等方法。相对于传统的机器学习模型,深度学习模型具有更深层次的结构,网络容量更大,可以学习数据的深层抽象特征。人工智能主要分为三大领域:自然语言处理、计算机视觉和语音识别。两个主要问题,有监督与无监督。机器学习的处理流程:数据采集、数据预处理、特征工程、建模和测试。...原创 2021-11-29 08:57:42 · 2360 阅读 · 0 评论