TFIDF
http://blog.csdn.net/chl033/article/details/4735411
在得到TFIDF权值以后就可以利用这些数据利用余弦定理或Jaccard系数来计算文
本之间的相似度以实现文本聚类等标准的文本挖掘算法了。
word2vec 学习过程
http://www.douban.com/note/298095260/
http://blog.csdn.net/chl033/article/details/4735411
在得到TFIDF权值以后就可以利用这些数据利用余弦定理或Jaccard系数来计算文
本之间的相似度以实现文本聚类等标准的文本挖掘算法了。
word2vec 学习过程
http://www.douban.com/note/298095260/
word2vec使用
http://blog.csdn.net/zhaoxinfan/article/details/11069485
http://www.csdn.net/article/2013-08-20/2816643-word2vec
http://www.csdn.net/article/2013-08-20/2816643-word2vec
词袋 对于那些不可以忽视词序,语法和句法的场合均不能采用bag of words的方法。
三篇论文
[1] 主要是:
http://arxiv.org/pdf/1310.4546.pdf
Distributed Representations of Words and Phrases and their Compositionality
中文:
中文:
Efficient Estimation of Word Representations in Vector Space
中文: http://blog.csdn.net/xceman1997/article/details/10047933
中文: http://blog.csdn.net/xceman1997/article/details/10047933
[3]
http://research.microsoft.com/pubs/189726/rvecs.pdf
Linguistic Regularities in Continuous Space Word Representations
中文:
Linguistic Regularities in Continuous Space Word Representations
中文: