词嵌入矩阵

最新推荐文章于 2023-03-26 22:21:46 发布

置顶 td092

最新推荐文章于 2023-03-26 22:21:46 发布

阅读量2.8k

点赞数

分类专栏： AI

欢迎交流，有评论就更

本文链接：https://blog.csdn.net/weixin_38258767/article/details/105255682

版权

AI 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

在nlp任务中，计算机不会直接处理文本信息，而是需要先将句子转化为矩阵进行处理。通常，先将句子划分为单词，每个单词用一个固定维数的向量表示（比如300），而句子的维数也会固定为一个常值(max_len)，并进行补齐。

词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵。
在这里插入图片描述
英文单词的oneshot形式可由tokenizer.word_index直接获得，它是一个字典，内容如下：

'the':1 'to':2 'and':3 .....

而词向量可以从各种预训练文件获得：
其中的内容类似：
在这里插入图片描述
词嵌入矩阵可以看作词向量依据对应单词的重排列。
获取词嵌入矩阵的示例代码如下：

num_words=len(word_index)+1
embedding_matrix=np.zeros((num_words,100))
for word,i in tqdm(word_index.items()):
    if i > num_words:
        continue  
    emb_vec=embedding_dict.get(word)
    if emb_vec is not None:
        embedding_matrix[i]=emb_vec

上面的num_words加1是因为单词编号是从1开始的。

td092

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
词嵌入矩阵

在nlp任务中，计算机不会直接处理文本信息，而是需要先将文本转化为矩阵进行处理。通常，先将句子划分为单词，每个单词用一个固定维数的向量表示（比如300），而句子的维数也会固定为一个常值(max_len)，并进行补齐。词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵。英文单词的oneshot形式可由tokenizer.word_index直接获得，它是一个字典，内...
复制链接

扫一扫