下面来看几个问题,下面将关注几个问题进行阐述:
- 为什么是word2vector
- 为什么语义的word2vec要好于无语义word2vec
- cbow的word2vec结果展示
- TF实现TF-IDF、共轭矩阵、cbow、skip-gram
- 训练好的word embedding通过倒排进行检索
1、 为什么是word2vector?
- 可以看下面这个博文解释的不错: 后面有时间会自己整理:http://www.cnblogs.com/pinard/p/7160330.html
2、 为什么语义的word2vec要好于无语义word2vec?
- 可以对词更好的进行向量表示
- 结果导向,比较几种word2vec方法,并且小样本下cbow会更好
3、cbow的word2vec结果展示(还有很大优化空间的,并且训练的数据也不是很多)
enter an word to search:父亲
('母亲', 0.5006737825399452)
('姐姐', 0.5005755597664082)
('政变', 0.5005573175296762)
('那一年', 0.5005278451741275)
('都回', 0.5005222345952383)
('孙子', 0.5005130261421589)
('竟被', 0.5005126096655758)
('8岁', 0.5005020163846302)
('姨妈', 0