词的独热表示(one-hot representation)
- boolean representation
- count representation
给定一个词典:[我,是,计算机专业,的,学生]
1、求给定单词的表示:
我:[1,0,0,0,0]
计算机专业:[0,0,1,0,0]
学生:[0,0,0,0,1]
每个单词的长度是词典的长度,词典长度为5,对于词典和第一个单词”我“来说,词典中”我“出现,因此该位置为1,”是“没有出现,该位置为0,“计算机专业”没有出现,该位置为0,“的”没有出现,该位置为0,“学生”没有出现,该位置为0。因此单词“我”的表示为[1,0,0,0,0]。
2、求给定句子的表示
给定一个词典:[我,去,打,篮球,又,逛街]
boolean representation --在表示时,只要词典中的词在句子中出现,都标记为1,不管出现几次。
S = 我去打篮球又去逛街:[1,1,1,1,1,1]
T = 我去打篮球:[1,1,1,1,0,0]
count representation--在表示时,需要标记词典中的词在句子中出现的频次,比如,“去”字,出现两次,在相应位置标记