自然语言处理
文章平均质量分 85
自然语言处理
酒酿小圆子~
这个作者很懒,什么都没留下…
展开
-
AIGC大模型资料汇总
llama学习笔记-1大模型面试笔记原创 2024-05-21 14:57:57 · 110 阅读 · 0 评论 -
【大模型】Transformer知识点详解
Transformer 模型中的注意力层提供了处理序列数据的强大能力,自注意力机制允许输入序列的每个位置都能接收到来自序列中其他所有位置的信息,这种机制可以被视为输入序列内部的全连接层。Transformer模型通过使用多头注意力机制来增强模型的能力。简单来说,多头注意力就是并行运行多个自注意力机制,每个机制关注输入的不同部分。通过这种方式,模型可以在不同的表示子空间中学习到输入之间的不同的依赖关系。在实际操作中,每个头的输出会被拼接起来,并通过一个线性层来整合信息。转载 2024-05-21 14:53:21 · 117 阅读 · 0 评论 -
GLU(Gated Linear Unit) 门控线性单元
GLU可以理解为能够并行处理时序数据的CNN网络架构,即利用CNN及门控机制实现了RNN的功能。优点在进行时序数据处理时严格按时序位置保留信息从而提升了性能,并且通过并行处理结构加快了的运算速度。原创 2024-05-13 10:24:59 · 1560 阅读 · 0 评论 -
【大模型】LLaMa系列演进及源码解析
主流的大语言模型都采用了Transformer架构,它是一个基于多层Self-attention的神经网络模型。原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。Llama模型与GPT-2类似,也是采用了基于Decoder-Only的架构。为了增强训练稳定性,前置了层归一化(Pre-normalization),并使用RMSNorm 作为层归一化方法。为了提高模型性能,采用SwiGLU 作为激活函数。转载 2024-05-07 15:25:42 · 1184 阅读 · 0 评论 -
【语义分割】语义分割概念及算法介绍
从第一篇真正意义上的深度学习方法语义分割模型FCN说起,语义分割发展了不足六年的时间,经典的SegNet,Deeplab系列,DenseASPP等等,再到近些年来研究热点的NAS方法。一些轻量化语义分割算法,如DFANet、BiSeNetV1,采用了轻量化backbone来减少计算量,但它们都是直接使用为分类任务设计的backbone,无法充分发挥在语义分割领域中的性能。可以通过考虑像素之间的先验关系来避免这些问题,例如,对象是连续的,因此附近的像素往往具有相同的标签。:BiSeNet的轻量化。原创 2023-10-25 17:50:30 · 1965 阅读 · 0 评论 -
【自然语言处理】理解词向量、CBOW与Skip-Gram模型
由于计算机不能直接对各种字符进行运算,为此需要将词的表示进行一些转换。因此,在自然语言处理中,通常需要对输入的语料进行一些预处理:其中,如何对词汇进行表示是很关键的问题,糟糕的表示方法容易导致所谓的 “Garbage in, garbage out”。原创 2023-10-24 17:30:29 · 521 阅读 · 0 评论 -
【自然语言处理】NLTK库的概念和作用
Natural Language Toolkit (NLTK)是一个广泛使用的Python自然语言处理工具库,由Steven Bird、Edward Loper和Ewan Klein于2001年发起开发。NLTK的目的是为自然语言处理(NLP)提供一个完整的、易于使用的工具集,使研究人员、学生和开发人员能够更加轻松地进行NLP研究和开发。原创 2023-10-24 18:01:04 · 1301 阅读 · 0 评论