对于关键词,句子的聚类,一开始真的是找不到头脑,后来了解到使用word2vec可以让关键字实现向量化,实现了向量化之后,再使用k-means聚类不就可以了吗。
1.结合word2vec进行关键字向量化
参考连接:https://blog.csdn.net/qq_28840013/article/details/89681499
这篇文章是讲解如何初步使用word2vec,讲解得很详细,就不多解释,
代码尝试:
from gensim.models import word2vec
import gensim
#获取句子
sentences=word2vec.Text8Corpus("kjcg.txt")
# print(sentences)
#sg=1是skip—gram算法,对低频词敏感,默认sg=0为CBOW算法
#size是神经网络层数,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。
#window是句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)
#min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。
#negativ