word embedding
- 如何用一个vector表示一个word?
—— 1-of-N encoding:vector的维数 = word的总数,每一个word都用唯一的vector来表示,每一个唯一的vector只有一维是1,其他维都是0。 - 但这造成了一个问题,word和word之间的联系如何体现?
—— word class:进行word聚类,然后用word所属的类来表示这个word。这样类内的word之间的联系就可以体现。 - 但是治标不治本,类与类之间的联系怎么体现呢?
—— word embedding:将word投影到更高维的空间,这个空间的维数比1-of-N encoding的小很多,但是每一维都是其特殊的含义。这样近义词的“近义”就得到了体现。