NLP词嵌入Word embedding实战项目

最新推荐文章于 2024-09-22 20:15:05 发布

pan15125284

最新推荐文章于 2024-09-22 20:15:05 发布

阅读量935

点赞数

分类专栏： tensorflow

本文链接：https://blog.csdn.net/pan15125284/article/details/93463380

版权

tensorflow 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1. 将文本表示为数字

机器学习模型以向量（数字数组）作为输入，在处理文本时，我们必须首先想出一个策略，将字符串转换为数字（或将文本“向量化”），然后再将其提供给模型。在本节中，我们将研究三种策略。

1.1. 独热编码（One-hot encodings）

首先，我们可以用“one-hot”对词汇的每个单词进行编码，想想“the cat sat on the mat”这句话，这个句子中的词汇（或独特的单词）是（cat,mat,on,The），为了表示每个单词，我们将创建一个长度等于词汇表的零向量，然后再对应单词的索引中放置一个1。这种方法如下图所示：

2. 利用 Embedding 层学习词嵌入

from __future__ import absolute_import, division, print_function, unicode_literals

# !pip install tf-nightly-2.0-preview
import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

# Embedding层至少需要两个参数： 
# 词汇表中可能的单词数量，这里是1000（1+最大单词索引）； 
# embeddings的维数，这里是32.。
embedding_layer = layers.Embedding(1000, 32)

输入：(samples, sequence_length) （batch,序列长度）

输出：(samples, sequence_length, embedding_dimensionality)（batch，序列长度，维数）