Hadoop学习
你就是根号四
烟台大学菜鸟学生
中国科学院大学什么都研究不出的研究生
展开
-
mahout搭建
一、Mahout是什么?Mahout是Apache的一个开源项目(http://mahout.apache.org/),提供了机器学习领域的若干经典算法,以便开发人员快速构建机器学习和数据挖掘方面的应用。Mahout是基于Hadoop的。从名称上看也很有意思,Hadoop是一个大象的名字,而Mahout则是象夫、看象人,可见二者联系之紧密。(这让我自然联想到Sun和Eclipse...)转载 2017-06-01 17:26:01 · 528 阅读 · 0 评论 -
Mahout 聚类算法学习之Canopy(一)
网上找到的学习博客参差不齐,好多都不能实现。因此我整合了一下,写出此篇博客1.首先要下载测试数据点击打开链接下载好数据后在ubuntu下一定要将后缀名改为.data,否则运行时将出现错误2.将测试数据转化为序列文件,借鉴了《Mahout算法解析与案例实战》但它的代码无论如何都跑不出来,因此对转化序列文件的代码修改了一下。package canopy;import java原创 2017-07-31 13:17:19 · 532 阅读 · 0 评论 -
WordCount代码解析
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hado转载 2017-04-21 16:00:22 · 513 阅读 · 0 评论 -
spark集群搭建与集群上运行wordcount程序
Spark 配置1、master 机器Spark 配置进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template 到 spark-env.sh。1cp spark-env.sh.template spark-env.sh编辑 spa原创 2017-09-09 10:33:55 · 1235 阅读 · 0 评论