adaptive embedding 原理及pytorch代码

最新推荐文章于 2024-08-09 00:37:20 发布

FocusOneThread

最新推荐文章于 2024-08-09 00:37:20 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习 PyTorch

本文链接：https://blog.csdn.net/guotong1988/article/details/87618245

版权

深度学习同时被 2 个专栏收录

212 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

PyTorch

83 篇文章 2 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了Adaptive Embedding的原理，它通过为高频词汇分配高维向量，低频词汇分配低维向量，然后使用线性层进行投影，以达到统一维度的效果。结合PyTorch代码示例，详细阐述了这一技术的应用。

摘要由CSDN通过智能技术生成

就是高频词用比如1024或512维，低频词用256或64维。再用Linear层project到相同的维数：

class AdaptiveEmbedding(nn.Module):
    def __init__(self, n_token, d_embed, d_proj, cutoffs, div_val=1, 
                 sample_softmax=False):
        super(AdaptiveEmbedding, self).__init__()

        self.n_token = n_token # 793470
        self.d_embed = d_embed # 1024

        self.cutoffs = cutoffs + [n_token] # [60000, 100000, 640000, 793470]
        self.div_val = div_val # 4
        self.d_proj = d_proj # 1024

        self.emb_scale = d_proj ** 0.5 # 32

        self.cutoff_ends = [0] + self.cutoffs # [0, 60000, 100000, 640000, 793470]

        self.emb_layers = nn.ModuleList()
        self.emb_projs = nn.ParameterList()
        if div_val &#