一、离散表示
1、词离散表示:One-hot 表示
语料库:
李杏 喜欢 喝 奶茶
诗雅 也 喜欢 喝 奶茶
李杏 同样 喜欢 喝 果汁
词典:
{“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8}
One-hot 表示:
李杏:[1,0,0,0,0,0,0,0]
喜欢:[0,1,0,0,0,0,0,0]
…
果汁:[0,0,0,0,0,0,0,1]
注意:
词典包含8个单词,每个单词有唯一索引
在词典中的顺序和在句子中的顺序没有关联
2、句子离散表示:Bag of Words
1)文档的向量表示可以直接将各词的词向量表示加和
李杏 喜欢 喝 奶茶 →[1,1,1,1,0,0,0,0]
诗雅 也 喜欢 喝 奶茶→[0,1,1,1,1,1,0,0]
李杏 同样 喜欢 喝 果汁→[1,1,1,0,0,0,1,1]
from IPython.display import</