原文链接:https://blog.csdn.net/LiQingBB/article/details/84931397
1.文本数据需要预处理成张量的形式,才能输入到神经网络。
2.文本划分成单元的过程叫做分词过程(tokenization),分成的单元叫做标记(token)。
3.文本可以划分为,单词、字符(abcdefg…)、n-gram等等。
4.一般用one-hot编码或者word-embedding将单词处理为数值张量。
5.one-hot编码简单,但是没有结构,任何两个单词之间的距离为
2
\sqrt{2}
2
6.word-embedding空间维度较小,空间中具有结构,相似的单词距离近,不相关的单词距离远。
7.embedding层的作用实际上可以看作是一个矩阵,将高维空间中的点映射到低维空间中。
文本 → 分词 →向量化
词向量化的方法主要有两种:
1.one-hot编码
2.word embedding
https://blog.csdn.net/LiQingBB/article/details/84931397
另外一种很清晰易懂的理解
https://www.cnblogs.com/USTC-ZCC/p/11068791.html