mahout
算法学习者
计算机各种知识学习笔记
展开
-
垃圾邮件和不合法邮件预测和过滤
cd $MAHOUT_HOME mkdir -p corpus/spam-assassin curl -O \ http://spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2 curl -O \ http://spamassassin.apache.org/publiccorpus/20021010_easy转载 2017-04-03 16:41:48 · 6874 阅读 · 0 评论 -
Mahout的taste里的几种相似度计算方法
在taste里, PearsonCorrelationSimilarity的实现方式不是采用上述公式,而是采用3的实现。 Cosine相似度(Cosine Similarity) 就是两个向量的夹角余弦,被广泛应用于计算文档数据的相似度 在taste里, 实现Cosine相似度的类是PearsonCorrelationSimilarity, 另外一个类UncenteredCo转载 2017-04-03 16:42:29 · 6399 阅读 · 0 评论