云计算是应我们的时代所造就的海量数据的需求而来到了我们的世界。从技术层面上来说,云计算解决了海量数据存储和计算模式的问题;而这一技术难题的解决,又为许多商业模式提供了可能性。由此,轰轰烈烈的云计算革命开展起来。云计算这个名词,融合了技术和商业模式两方面的新内容。
目前已经出现了多种云计算平台(如Hadoop等),能够对海量数据的存储和运算进行有效的管理。海量数据的第一个挑战,存储与可计算已经得到了较好的解决。但是,"我们数据很多,但信息很少“。从数据中发现有价值的信息,则是海量数据所带来的第二个挑战。
本系列文章将介绍云计算平台上的机器学习和数据挖掘。重点介绍算法的设计范式,并以Mahout为例介绍具体实现的思路。