实体嵌入Entity Embedding及代码实现

最新推荐文章于 2024-06-14 16:00:00 发布

野营者007

最新推荐文章于 2024-06-14 16:00:00 发布

阅读量2.7k

点赞数

分类专栏：机器学习基础文章标签：实体嵌入 embedding 深度学习结构化数据机器学习

本文链接：https://blog.csdn.net/qq_40136685/article/details/111310773

版权

机器学习基础专栏收录该内容

17 篇文章 2 订阅

订阅专栏

实体嵌入

英文是Entity Embedding。我们希望深度学习能够处理结构化数据。在处理类别特征时，常用办法包括独热编码、顺序编码等。在NLP任务处理中，词和文章的表示都得益于嵌入。我们同样可以将这个思想在结构化数据领域加以运用。

原理

假设 $N$ 表示分箱的数量， $M$ 表示嵌入的维度， $B$ 表示训练时候的批量尺寸。我们用 $\in R^{B*1}$ 代表输入数据， $\in R^{N*M}$ 表示嵌入矩阵， $\in R^{N*1}$ 表示分箱的向量中心。我们的权重。下标中 $i$ 表示数据的序号， $j$ 表示分箱的序号。
$W_{ij} = softmax(\frac 1 {|x_i - c_j| + \epsilon})$
我们最后生成的嵌入矩阵可以表示为 $\in R^{B*N}$ 。
$V_i = \sum_{j=1}^N W_{ij} E_j \\\\ V = WE$

代码实现

我们借助pytorch构建实体嵌入层。

import torch
import torch.nn as nn
import torch.nn.functional as F

class EntityEmbeddingLayer(nn.Module):
    def __init__(self, num_level, emdedding_dim, centroid):
        super(EntityEmbeddingLayer, self).__init__()
        self.embedding = nn.Embedding(num_level, embedding_dim)
        self.centroid = torch.tensor(centroid).detach_().unsqueeze(1)
    
    def forward(self, x): 
        """
        x: size of (batch_size, 1)
        """
        eps = 1e-7
        x = x.unsqueeze(1)
        d = 1.0/((x-self.centroid).abs()+eps)
        w = F.softmax(d.squeeze(2), 1)
        v = torch.mm(w, self.embedding.weight)
        return v

适用场景

深度学习处理结构化数据。

优点

嵌入向量稠密，非稀疏
容易计算类别距离
方便可视化

缺点

暂无

Reference

NLP实战高手课，第三章，王然，极客时间

野营者007

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
实体嵌入Entity Embedding及代码实现

实体嵌入英文是Entity Embedding。我们希望深度学习能够处理结构化数据。在处理类别特征时，常用办法包括独热编码、顺序编码等。在NLP任务处理中，词和文章的表示都得益于嵌入。我们同样可以将这个思想在结构化数据领域加以运用。原理假设NNN表示分箱的数量，MMM表示嵌入的维度，BBB表示训练时候的批量尺寸。我们用x∈RB∗1x \in R^{B*1}x∈RB∗1代表输入数据，E∈RN∗ME \in R^{N*M}E∈RN∗M表示嵌入矩阵，c∈RN∗1c \in R^{N*1}c∈RN∗1表示分箱
复制链接

扫一扫

专栏目录