“当数据遇上挖掘”是一个曾经被津津乐道的话题,反映了数据挖掘的重要性然而,当挖掘遇上海量的数据,当挖掘被要求提供实时或及时的计算结果,当挖掘遇上高维度应用时,很多的数据挖掘专家就没有那么自信和乐观了。
数据挖掘现今在越来越多的行业被应用,搜索领域也不例外。在这个领域,两种数据很流行:
- 搜索日志。这个数据可以让我们知道用户的行为;
- Web数据。主要是文本和链接等。
这两种数据,前者比较规范些。但是,他们的共同特性是:数据量很大。而现在的应用又希望我们能够尽快地提供分析结果,所以对传统的实现提出了高挑战。显然,一台机器是不能满足需要了,无论是内存还是CPU。所以,现今各大搜索公司里都不约而同地在挖掘上下足功夫,因为这个本事讲直接影响着体验。
分布式数据挖掘应运而生!作为一个搜索公司,我们也不例外。
手机搜索:wap.roboo.com