![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
启示收藏
这个作者很懒,什么都没留下…
展开
-
Hadoop伪分布式集群搭建
在以上的概念之中实际上只有以下几个名词: · HDFS:分布式文件系统,是负责信息保存的操作; · 有一个最为重要的概念就是所有的数据(默认)会保存有三份。 · 低廉硬件:512M内存可以跑,在整个的大数据的集群设计里面,可以不去使用小型机来进行配置,也可以使用一些便宜的电脑。在Linux操作系统下: 为了保证整个的Hadoop可以正常执行,需要考虑以下几个问题: · 你的主机名称是原创 2016-11-13 10:20:53 · 532 阅读 · 0 评论 -
MapReduce深入操作
一、自定义数据类型 在设计的系统开发过程之中,有可能要参与分析的文件会有很多,并且文件的组成结构也可能会非常的复杂,所以来讲在整个的Hadoop里面可以针对于用户的需求实现自定义类型。 现在假如说有以下一个信息文件,文件的组成格式(购物统计):用户名[0]、省份[1]、城市[2]、购买日期时间[3]、商品名称[4]、商品分类[5]、商品子分类[6]、商品价格[7]、商品购买价格[8]希望可以通过一原创 2016-11-17 22:26:35 · 317 阅读 · 0 评论 -
MapReduce的基本操作
MapReduce基本原理 MapReduce是一种需要在Hadoop集群上执行的分析程序,也就是说它可以分析的就是在HDFS上所保存的相关数据,在之前见到过一个单词统计程序,实际上现在也可以自己利用MapReduce来实现这样的单词统计程序。 · 如果要想对数据进行分析,则需要有一个输入的数据信息存在,那么这个信息就要求保存在HDFS上; 在整个的处理过程里面,只有Map阶段以及Red原创 2016-11-15 20:58:48 · 3210 阅读 · 0 评论