“这篇是研一自己摸索的代码,当时就有点过时,但还是具有一定的参考价值。仅作记录,意义不大。”——题记 来自这里 提示性信息很赞 参考52nlp(三) (二) (一) 对所有语料进行分词(tokenizing)和词干化(stemming) 利用 tf-idf 将语料库转换为向量空间(vector space) 计算每个文档间的余弦距离(cosine distance)用以测量相似度 利用 k-means 算法进行文档聚类 利用多维尺度分析(multidimensional scaling)