![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 68
大模型
西笑生
西笑生
展开
-
Transformer - 时间特征的处理
flyfish原创 2024-04-22 20:21:29 · 247 阅读 · 0 评论 -
Transformer - 《Attention is All You Need》中的Scaled Dot-Product Attention,为什么要Scaled
flyfish原创 2024-05-07 19:29:59 · 611 阅读 · 0 评论 -
Multi-Head Attention 代码实现
Transformer原创 2024-04-03 19:48:13 · 939 阅读 · 0 评论 -
基于RNN和Transformer的词级语言建模 代码分析 数据集的处理 Dictionary 和 Corpus
flyfish原创 2024-05-30 15:12:03 · 766 阅读 · 0 评论 -
Transformer - 特征预处理
flyfish原创 2024-04-23 19:28:35 · 240 阅读 · 0 评论 -
基于RNN和Transformer的词级语言建模 代码分析 RNNModel(LSTM 和 GRU)
flyfish原创 2024-05-30 15:09:02 · 478 阅读 · 1 评论 -
基于RNN和Transformer的词级语言建模 代码分析 PositionalEncoding
flyfish原创 2024-05-30 15:06:52 · 496 阅读 · 0 评论 -
transformer代码分析的准备工作
flyfish原创 2024-04-18 19:29:26 · 191 阅读 · 0 评论 -
基于RNN和Transformer的词级语言建模 代码分析 _generate_square_subsequent_mask
flyfish原创 2024-05-30 15:02:40 · 631 阅读 · 0 评论 -
基于RNN和Transformer的词级语言建模 代码分析 log_softmax
flyfish原创 2024-05-30 16:20:57 · 1314 阅读 · 0 评论 -
基于RNN和Transformer的词级语言建模 代码分析 TransformerModel
flyfish原创 2024-05-30 14:56:48 · 675 阅读 · 0 评论 -
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(2)
Transformer原创 2024-04-10 10:58:10 · 802 阅读 · 0 评论 -
Transformer - 编码器和解码器中的QKV分别来自哪
flyfish原创 2024-05-06 19:54:17 · 650 阅读 · 1 评论 -
Transformer - TokenEmbedding、 PositionalEmbedding、 TemporalEmbedding
flyfish原创 2024-04-23 19:28:57 · 673 阅读 · 0 评论 -
Transformer - Teacher Forcing
flyfish原创 2024-04-18 19:30:00 · 366 阅读 · 0 评论 -
Transformer - Self-Attention层的复杂度的计算
flyfish原创 2024-05-15 20:04:13 · 279 阅读 · 0 评论 -
Transformer - Layer Normalization
flyfish原创 2024-04-28 19:45:18 · 186 阅读 · 0 评论 -
Meta Llama 3 残差结构
flyfish原创 2024-06-05 20:09:14 · 873 阅读 · 2 评论 -
Transformer的Encoder和Decoder之间的交互
flyfish原创 2024-06-05 20:07:59 · 593 阅读 · 0 评论 -
Meta Llama 3 文本编码为 token
flyfish原创 2024-06-04 20:25:34 · 986 阅读 · 0 评论 -
Meta Llama 3 大型语言模型的超参数
flyfish原创 2024-05-31 19:03:02 · 1153 阅读 · 0 评论 -
Meta Llama 3 前馈层
flyfish原创 2024-06-05 20:08:54 · 1081 阅读 · 0 评论 -
Meta Llama 3 里面装饰器
flyfish原创 2024-06-06 20:11:04 · 807 阅读 · 1 评论 -
Grok-1 源码中语法 @dataclass 变量名称:变量类型
flyfish原创 2024-03-20 18:40:59 · 268 阅读 · 0 评论 -
使用GPT2预训练模型的方法
flyfish原创 2024-03-22 19:34:12 · 524 阅读 · 0 评论 -
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(1)
flyfish原创 2024-03-01 20:36:10 · 918 阅读 · 0 评论 -
Transformer - 掩码张量
Transformer原创 2024-04-02 17:49:38 · 203 阅读 · 0 评论 -
Transformer - 注意⼒机制 代码实现
Transformer原创 2024-04-02 17:50:10 · 559 阅读 · 2 评论 -
Positional Encoding 位置编码
flyfish原创 2024-03-05 19:34:37 · 647 阅读 · 0 评论 -
把词转换成可以计算的向量
flyfish原创 2024-03-04 19:18:54 · 212 阅读 · 0 评论 -
Transformer - Positional Encoding 位置编码 代码实现
Transformer原创 2024-04-02 17:50:41 · 516 阅读 · 0 评论 -
Grok-1 源码中语法 Type Hints 箭头 ->
flyfish原创 2024-03-20 18:40:33 · 241 阅读 · 0 评论 -
Transformer中的 Add Norm
flyfish原创 2024-03-08 19:47:02 · 842 阅读 · 0 评论 -
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程
flyfish原创 2024-03-05 19:35:26 · 784 阅读 · 0 评论 -
GPT中使用的Gaussian Error Linear Unit (GELU)
flyfish原创 2024-03-22 19:34:50 · 1018 阅读 · 0 评论 -
词嵌入向量和位置编码向量的整合
flyfish原创 2024-03-05 19:36:14 · 256 阅读 · 0 评论 -
Transformer中的FeedForward
flyfish原创 2024-03-07 19:54:27 · 577 阅读 · 0 评论 -
Transformer - model architecture
Transformer原创 2024-04-02 17:51:19 · 716 阅读 · 0 评论 -
Vanilla Transformer
不,我们没有原味的的,我们的香草味就是原味的。Vanilla就是 having no special or extra features。就是ordinary。Vanilla 香草味就是老美的原味,所以vanilla这个单词就是“普通的、原始的、最基础版本”的意思。冰淇淋有原味的,香草味,的巧克力味的。原创 2024-03-22 19:36:19 · 313 阅读 · 0 评论 -
torch.nn.Embedding
此模块通常用于存储单词嵌入并使用索引检索它们。模块的输入是索引列表,输出是对应的单词嵌入。是通过nn.init.normal_来的,使用从正态分布中提取的值填充输入张量。embedding.weight的值是哪来的呢。将种子固定后,会得到相同的数值。原创 2024-03-22 19:35:33 · 285 阅读 · 0 评论