torch
云帆@
自然语言处理工程师
展开
-
accelerator入门
注意的是,即使是单机多卡,DDP也比DP快很多,因为DDP从设计逻辑上杜绝了很多DP低效的缺点。在DDP中,再没有master GPU,每个GPU都在独立的进程中完成自身的任务。#运行: https://github.com/huggingface/accelerate/tree/main/examples 参考nlp_example.py。vim ~/.cache/huggingface/accelerate/default_config.yaml (后面配置时可以直接修改该文件)原创 2024-05-08 11:05:49 · 380 阅读 · 0 评论 -
GQA分组注意力机制
【代码】GQA分组注意力机制。原创 2024-04-28 10:20:35 · 952 阅读 · 0 评论 -
手撕BeamSearch代码
【代码】手撕BeamSearch代码。原创 2024-03-08 20:40:35 · 173 阅读 · 0 评论 -
手撕线性回归
【代码】手撕线性回归。原创 2024-03-04 21:49:13 · 110 阅读 · 0 评论 -
手撕多头自注意力MultiHeadAttention
【代码】手撕多头自注意力MultiHeadAttention。原创 2024-02-23 11:13:27 · 302 阅读 · 0 评论 -
手撕SelfAttention
【代码】手撕SelfAttention。原创 2024-02-23 10:39:34 · 422 阅读 · 0 评论 -
SinusoidalPositionalEmbedding/tensor2tensor中实现的绝对位置编码
【代码】SinusoidalPositionalEmbedding/tensor2tensor中实现的绝对位置编码。原创 2024-01-08 17:35:46 · 556 阅读 · 0 评论 -
Sinusoidal绝对位置编码
【代码】Sinusoidal绝对位置编码。原创 2024-01-08 17:29:17 · 441 阅读 · 0 评论 -
ALiBi线性偏置注意力
参考:https://zhuanlan.zhihu.com/p/632780188。m 的取值公式:2^(-8/n) n为head 头数。原创 2024-01-07 16:58:23 · 494 阅读 · 0 评论 -
旋转位置编码下求llama-multi-head-attention
【代码】旋转位置编码下求llama-multi-head-attention。原创 2024-01-03 11:11:28 · 571 阅读 · 1 评论 -
RoPE旋转位置编码
【代码】RoPE旋转位置编码。原创 2023-12-27 09:41:42 · 421 阅读 · 1 评论 -
RMSNorm均方根标准化
【代码】RMSNorm均方根标准化。原创 2023-12-26 09:08:13 · 2340 阅读 · 1 评论 -
手写交叉熵损失
二元交叉熵:loss=−1/n ∑[ylna+(1−y)ln(1−a)]多元交叉熵:loss=−1/n ∑ylna。原创 2023-12-21 15:56:08 · 452 阅读 · 0 评论