Hadoop学习
messiran10
这个作者很懒,什么都没留下…
展开
-
【Hadoop学习】之Map-Reduce(一)
前言:之前已经基本熟悉了常用的机器学习算法,现在开始学习Hadoop/Spark这些分布式的框架。目前Spark的发展态势比较好,但是Spark也是基于Hadoop的分布式文件系统(hdfs)实现的。所以准备先好好学学hadoop,再去学习Spark。网上关于MapReduce的介绍资料很多。我理解的MapReduce就是分治思想的工程实现,利用MapReduce思想可以对大数据集进行并行处理。但是原创 2016-03-16 21:36:08 · 423 阅读 · 0 评论 -
【Hadoop源码学习】之hdfs(一)
前言:之前已经基本熟悉了常用的机器学习算法,现在开始学习Hadoop/Spark这些分布式的框架。目前Spark的发展态势比较好,但是Spark也是基于Hadoop的分布式文件系统(hdfs)实现的。所以准备先好好学学hadoop,再去学习Spark。Hdfs的框架参见http://www.cnblogs.com/laov/p/3434917.htmlHdfs提供了一些JAVA API供用户使用,因原创 2016-03-14 23:29:10 · 552 阅读 · 0 评论 -
【Hadoop学习】之Mahout
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,也是apache的重点项目。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。对机器学习算法的分布式实现比较感兴趣,后续准备深入学习下Mahout这个项目。今天主要是把基本的环境给搭建起来了,然后跑了一个demo主要是参照原创 2016-03-17 20:36:16 · 1014 阅读 · 0 评论