【深度学习】Transformer梳理
对于transformer,网上的教程使用记号、术语不一。最关键的一点,网上各种图的简化程度不一,所以我打算自己手画一次图。**注意:**全连接层在概念上输入必须是一维向量,但是实际实现的时候我们会采用批处理将多个样本的向量组拼成矩阵,用矩阵乘法加速运算。如果用单一样本的向量来标注全文可能更清晰,但是为了更贴近实用,约定全文的输入长这个样子而不是向量:其实,输入也不是矩阵。。。输入是3维张量,三个维度分别是batch_size, number(当前用到的词数), dimension(特征维度)
原创
2024-05-29 03:02:03 ·
1693 阅读 ·
2 评论