Hadoop
文章平均质量分 80
王小康walker
这个作者很懒,什么都没留下…
展开
-
Hadoop2.6.0单机伪分布式安装
一,环境准备本教程使用Ubuntu 14.04 64位的操作系统。 Hadoop的版本是Hadoop-2.6.0。 IP地址:192.168.50.130 主机名:ubuntu查看IP地址:命令 ifconfig 查看主机名:命令 hostname在安装其他环境之前,我们先在/etc/host中配置IP和主机名之间的映射,为方便后续操作的访问。 通过命令# vi /etc/hosts 添加原创 2017-09-24 00:59:47 · 584 阅读 · 0 评论 -
Hadoop RPC机制及使用
一、Hadoop RPC基本介绍二、Hadoop RPC的使用三、小结原创 2017-10-31 22:28:30 · 997 阅读 · 0 评论 -
【MR原理-2】MapReduce作业提交与初始化过程分析
导读: 1. 作业提交与初始化概述 2. 作业提交过程详解 3. 作业初始化过程详解一、作业提交与初始化概述 作业提交过程比较简单,主要为后续作业执行准备环境,主要涉及创建目录、上传文件等操作;而一旦用户提交作业后,JobTracker端便会对作业进行初始化。作业初始化的主要工作是根据输入数据量和作业配置参数将作业分解成若干个Map Task以及Reduce Task,并添加到原创 2017-11-21 23:01:35 · 643 阅读 · 0 评论 -
【MR原理-1】MapReduce整体架构及工作机制
导读: 1. HDFS架构 2. MapReduce架构 3. MapReduce作业的生命周期 Hadoop的核心两个组件分别是分布式文件系统和分布式计算框架MapReduce。其中分布式文件系统主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。在了解MapReduce工作机制之前,考虑到MapRed原创 2017-11-20 22:46:34 · 5847 阅读 · 2 评论 -
【MapReduce实例】单词统计
一、实例描述计算出文件中各个单词的频数,要求输出结果按照单词出现的频数进行降序。 比如,输入文件 file1.txt,其内容如下: hello word bye worldfile2.txt,其内容如下: hello hadoop goodbye hadoop对应上面给出的输入样例,其输出样例为: 2 hadoop 2 hello 2 worl原创 2017-12-04 19:44:29 · 2102 阅读 · 0 评论 -
【MapReduce实例】数据去重
一、实例描述数据去重是利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问等这些看似庞大的任务都会涉及数据去重。比如,输入文件 file1.txt,其内容如下: 2017-12-9 a 2017-12-10 b 2017-12-11 c 2017-12-12 d 2017-12-13 a 2017-12-14 b 2017-12-15 c 20原创 2017-12-05 23:35:08 · 1463 阅读 · 0 评论