大数据处理的利器------hadoop开源框架
前几天跟老师学习了机器学习,只是机器学习的一个方向就是SVM(支持向量机),由于本人的数学功底不够,于是就先将机器学习放在一边,等进入本科院校再系统地学习,在学习机器学习的过程中,了解了大数据处理框架,机器学习的目的大部分就是处理大数据,从PB级别的数据中找出对商家有用的数据,这对一般的平台机器需要有很大的要求,而hadoop开源框架的提出,让我们这些小角色也能够搭建并行处理平台,感受一下并行处理的快感,本人在写这篇博客的时候已经将平台搭建完成,下面就将实例展现出来,这个实例是某个机构开放出来的,我将它整理一下,便于大家来探索讨论,一直不知道怎么将代码贴到博客中,今天学会了。不多说了,直接解释hadoop中并行处理的架构MapReduce。
hadoop框架的MapReduce思想很简单,就是先一个map过程,然后reduce过程,最后输出,这个实例是将移动公司的个人电话信息记录下来,我们这里很简单,就是将一个号码的下载流量和上传流量记录下来,如