目录
0 概论
- What is 文本张量表示
- 将一段文本使用张量进行表示,其中一般将词汇表示为向量,称为词向量,再由各个词向量按照顺序组成矩阵形成文本表示。
- 文本向量表示的作用
- 将文本表示成张量(矩阵)形式,能够使语言文本可以作为计算机处理程序的输入,进行接下来一系列的解析工作。
- 文本张量表示方法
- One-hot 编码
- Word2Vec
- Word Embedding
1 One-hot
- One-hot 编码
- 又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中 n 的大小是整个语料中不同词汇的总数。
- One-hot 编码实现
# 导入用于对象保存与加载的joblib
import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokeniz