![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大语言模型
文章平均质量分 84
江安的猪猪
这个作者很懒,什么都没留下…
展开
-
Llama开源代码详细解读(3)
这个函数接收一个张量mask,并将其变换为特定的形状。输入三个参数分别为:mask:大小为[bsz, seq_len]。dtype:数据类型。tgt_len:目标序列长度。以下是函数的运行方式。原创 2024-08-05 17:21:41 · 233 阅读 · 0 评论 -
Llama开源代码详细解读(2)
FlashAttention是Tranformer模型中用于改进注意力机制的技术,主要目的是减少计算复杂度和内存占用。原创 2024-07-30 21:20:15 · 849 阅读 · 0 评论 -
Llama开源代码详细解读(1):工具包
logging,utf-8是用于表示unicode字符的编码方式,是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符,第一位设为0,后面7位为该符号的Unicode码,对于英文字母,unicode与ASCII编码相同。对于n字节的字符,第一个字节的前n位均设为1,第n+1位设为0,后面字节的前两位均设置为10,剩下的没有提及的,就是该字符的Unicode码。math工具包提供了对于数学函数的访问,具体在接下来用到再说。原创 2024-07-29 15:32:15 · 459 阅读 · 0 评论