海量文档查同或聚类问题 -- Locality Sensitive Hash 算法(转)
原文链接:http://blog.csdn.net/fxjtoday/article/details/6200257
考虑一下这个场景 , 使用网络爬虫高速爬取大量的网页内容 , 如果想把这些网页进行实时聚类 , 并从中提取每个网页聚类的主题 . 我们应该怎么样去做
对于普通或常见的聚类算法 , 比如 K-means, 或 Hierarchical 聚类 , 无法适用于这个常见 , 对于这...
原创
2013-01-24 15:42:49 ·
187 阅读 ·
0 评论