Hadoop环境搭建测试以及MapReduce实例实现

2 篇文章 1 订阅
1 篇文章 0 订阅

目录

1 任务

2 过程

2.1 熟悉常用的 Hadoop 命令

2.2 Hadoop环境搭建

1.SSH登录权限设置

2.安装Java环境

3.Hadoop的安装

4.伪分布式安装配置

2.3 Wordcount实例

2.4 搭建eclipse环境编程实现Wordcount程序

1、安装eclipse

2.配置Hadoop-Eclipse-Plugin

3.在Eclipse中操作HDFS中的文件

4.在Eclipse中创建MapReduce项目

5.通过 Eclipse 运行 MapReduce

2.5基于Hadoop的数据去重实例实现

1.实例描述

2.设计思路

3.程序部分代码

4.实验结果

3 总结


1 任务

  • 熟悉常用的 Hadoop 命令
  • 运行 Wordcount 实例
  • 搭建 Eclipse 编程环境
  • 编程实现 Wordcount 程序

2 过程

2.1 熟悉常用的 Hadoop 命令

1.利用Shell命令操作

Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。

注意

有三种shell命令方式的区别:

(1) hadoop fs

(2) hadoop dfs

(3) hdfs dfs

hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统

hadoop dfs只能适用于HDFS文件系统

hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统

我们可以在终端输入如下命令,查看fs总共支持了哪些命令

./bin/hadoop fs

2.查看help命令如何使用

3.利用HDFS的Web界面管理

2.2 Hadoop环境搭建

1.SSH登录权限设置

(1) Ubuntu 默认已安装了 SSH client,现在安装 SSH server:

(2)安装成功后

(3)登录

(4)登录成功

2.安装Java环境

(1)下载JDK1.7.0

 

(2)下载成功

(3)环境变量的配置

(4)保存.bashrc文件并退出vim编辑器并命令让.bashrc文件的配置立即生效

(5)查看是否安装成功

3.Hadoop的安装

(1)在计算机中建立一个共享文件夹,并将hadoop下载到其中,并解压

(2)将文件名改为hadoop

(3)修改文件权限

(4)检查版本信息

4.伪分布式安装配置

(1)修改配置文件core-site.xml

(2)修改配置文件hdfs-site.xml

(3)初始化文件系统

(4)初始化过程中出现环境变量配置问题,因此我们打开hadoop-env.sh文件进行修改

(5)修改后,再次进行初始化

(6)初始化成功

2.3 Wordcount实例

1.格式化namenode

2.格式化成功

3.启动进程

4.查看进程

5.把本地到hadoop/input (自己建立的)文件夹中到文件上传到hdfs文件系统到input文件夹下

6.查看文件是否上传成功

7.运行wordcount实例

8.查看mapreduce进度

9.查看运行结果

10.将运行结果取回本地文件系统

11.关闭进程

2.4 搭建eclipse环境编程实现Wordcount程序

1、安装eclipse

(1) 下载eclipse

(2)安装并创建快捷方式

(3)下载并安装Hadoop-Eclipse-Plugin,在共享文件夹中下载,再解压

2.配置Hadoop-Eclipse-Plugin

(1)启动eclipse

(2)安装好Hadoop-Eclipse-Plugin插件的效果

(3)对插件的进一步配置

选择Hadoop的安装目录

② 切换Map/Reduce开发视图

③ Hadoop Location的设置

④ 建立与Hadoop集群的连接

3.在Eclipse中操作HDFS中的文件

配置好后,点击左侧 Project Explorer 中的 MapReduce Location (点击三角形展开)就能直接查看 HDFS 中的文件列表了(HDFS 中要有文件,如下图是 WordCount 的输出结果),双击可以查看内容,右键点击可以上传、下载、删除 HDFS 中的文件,无需再通过繁琐的 hdfs dfs -ls 等命令进行操作了。

以下output/part-r-00000文件记录了输出结果。

4.在Eclipse中创建MapReduce项目

(1) 创建Project

(2)创建MapReduce项目

(3)填写项目名

(4)项目创建完成

(5)新建Class

(6)填写Class信息

(7)编辑WordCount.java文件

5.通过 Eclipse 运行 MapReduce

(1) 将 /usr/local/hadoop/etc/hadoop 中将有修改过的配置文件(如伪分布式需要 core-site.xml 和 hdfs-site.xml),以及 log4j.properties 复制到WordCount 项目下的 src 文件夹

(2)Wordcount运行结果同shell指令结果对比

2.5基于Hadoop的数据去重实例实现

1.实例描述

 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。

对数据文件中的数据进行去重。数据文件中的每行都是一个数据。

2.设计思路

数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器,无论这个数据出现多少次,只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key,而对value-list则没有要求。当reduce接收到一个<key,value-list>时就直接将key复制到输出的key中,并将value设置成空值。

在MapReduce流程中,map的输出<key,value>经过shuffle过程聚集成<key,value-list>后会交给reduce。所以从设计好的reduce输入可以反推出map的输出key应为数据,value任意。继续反推,map输出数据的key为数据,而在这个实例中每个数据代表输入文件中的一行内容,所以map阶段要完成的任务就是在采用Hadoop默认的作业输入方式之后,将value设置为key,并直接输出(输出中的value任意)。map中的结果经过shuffle过程之后交给reduce。reduce阶段不会管每个key有多少个value,它直接将输入的key复制为输出的key,并输出就可以了(输出中的value被设置成空了)。

3.程序部分代码

public class WordCountDatededuplication {
 
    //map将输入中的value复制到输出数据的key上,并直接输出
    public static class Map extends Mapper<Object,Text,Text,Text>{
        private static Text line=new Text();//每行数据
       
        //实现map函数
        public void map(Object key,Text value,Context context)
                throws IOException,InterruptedException{
            line=value;
            context.write(line, new Text(""));
        }
    }
   
    //reduce将输入中的key复制到输出数据的key上,并直接输出
    public static class Reduce extends Reducer<Text,Text,Text,Text>{
        //实现reduce函数
        public void reduce(Text key,Iterable<Text> values,Context context)
                throws IOException,InterruptedException{
            context.write(key, new Text(""));
        }
    }
   
    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        //这句话很关键
        conf.set("mapred.job.tracker", "192.168.1.2:9001");
       
        String[] ioArgs=new String[]{"dedup_in","dedup_out"};
     String[] otherArgs = new GenericOptionsParser(conf, ioArgs).getRemainingArgs();
     if (otherArgs.length != 2) {
     System.err.println("Usage: Data Deduplication <in> <out>");
     System.exit(2);
     }
     
     Job job = new Job(conf, "Data Deduplication");
     job.setJarByClass(Dedup.class);
     
     //设置Map、Combine和Reduce处理类
     job.setMapperClass(Map.class);
     job.setCombinerClass(Reduce.class);
     job.setReducerClass(Reduce.class);
     
     //设置输出类型
     job.setOutputKeyClass(Text.class);
     job.setOutputValueClass(Text.class);
     
     //设置输入和输出目录
     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
     System.exit(job.waitForCompletion(true) ? 0 : 1);
     }
}

4.实验结果

(1)准备测试数据

创建文件夹inputdatadeduplication,并在该文件夹下创建两个文件data1.txt和data2.txt

data1.txt文件:

data2.txt文件:

(2)查看运行结果

3 总结

首先我们启动eclipse需要管理员的权限,这样我们在运行这个程序时,避免了“无法访问”的错误。

MapReduce实例实现的主要难点是代码的编写.

希望各位既可以掌握Hadoop伪分布式的搭建过程,也熟悉一些Linux指令,锻炼动手能力。

  • 11
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce;测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天 hdfs的原理和使用操作、编程 01-NN元数据管理机制.avi 02-NN工作机制2.avi 03-DN工作原理.avi 04-HDFS的JAVA客户端编写.avi 05-filesystem设计思想总结.av i 06-hadoop中的RPC框架实现机制.avi 07-hadoop中的RPC应用实例demo.avi 08-hdfs下载数据源码跟踪铺 垫.avi 09-hdfs下载数据源码分析-getFileSystem.avi 10-hdfs下载数据源码分析-getFileSystem2.avi 第三天 mapreduce的原理和编程 01-hdfs源码跟踪之打开输入流.avi 02-hdfs源码跟踪之打开输入流总结.avi 03-mapreduce介绍及wordcount.avi 04-wordcount的编写和提交集群运行.avi 05-mr程序的本地运行模式.avi 06-job提交的逻辑及YARN框架的技术机制.avi 07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四天 常见mr算法实现和shuffle的机制 01-复习.avi 02-hadoop中的序列化机制.avi 03-流量求和mr程序开发.avi 04-hadoop的自定义排序实现.avi 05-mr程序中自定义分组的实现.avi 06-shuffle机制.avi 07-mr程序的组件全貌.avi 08-textinputformat对切片规划的源码分析.avi 09-倒排索引的mr实现.avi 10-多个job在同一个main方法中提交.avi 第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-hadoop分布式集群HA模式部署.avi 06-hdfs--HA测试.avi 07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库mysql方式安装配置.avi 03-hive的使用.avi 04-hive的常用语法.avi 05-hql语法及自定义函数.avi 06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七天 storm+kafka 006-kafka整合storm.avi 01-storm基本概念.avi 02-storm编程规范及demo编写.avi 03-storm的topology提交执行.avi 04-kafka介绍.avi 05-kafuka集群部署及客户端编程.avi 06-kafka消费者java客户端编程.avi 第八天 实战项目 01-项目背景及技术架构.avi 02-主要技术选型.avi 03-flume介绍及演示.avi 04-行为轨迹增强处理流程.avi 05-样本url筛选模块开发.avi 06-行为轨迹增强模块1.avi 07-行为轨迹增强模块2.avi
第1章 绪论 1 1.1 云计算的概念 1 1.2 云计算发展现状 3 1.3 云计算实现机制 5 1.4 网格计算与云计算 6 1.5 云计算的发展环境 9 1.5.1 云计算与3G 9 1.5.2 云计算与物联网 9 1.5.3 云计算与移动互联网 10 1.5.4 云计算与三网融合 11 1.6 云计算压倒性的成本优势 12 习题 15 参考文献 15 第2章 Google云计算原理与应用 17 2.1 Google文件系统GFS 17 2.1.1 系统架构 18 2.1.2 容错机制 20 2.1.3 系统管理技术 20 2.2 分布式数据处理MapReduce 21 2.2.1 产生背景 21 2.2.2 编程模型 22 2.2.3 实现机制 22 2.2.4 案例分析 24 2.3 分布式锁服务Chubby 25 2.3.1 Paxos算法 26 2.3.2 Chubby系统设计 27 2.3.3 Chubby中的Paxos 29 2.3.4 Chubby文件系统 31 2.3.5 通信协议 32 2.3.6 正确性与性能 34 2.4 分布式结构化数据表Bigtable 35 2.4.1 设计动机与目标 35 2.4.2 数据模型 36 2.4.3 系统架构 37 2.4.4 主服务器 38 2.4.5 子表服务器 39 2.4.6 性能优化 42 2.5 分布式存储系统Megastore 43 2.5.1 设计目标及方案选择 44 2.5.2 Megastore数据模型 44 2.5.3 Megastore中的事务及并发控制 46 2.5.4 Megastore基本架构 47 2.5.5 核心技术——复制 49 2.5.6 产品性能及控制措施 52 2.6 大规模分布式系统的监控基础架构Dapper 54 2.6.1 基本设计目标 54 2.6.2 Dapper监控系统简介 54 2.6.3 关键性技术 57 2.6.4 常用Dapper工具 58 2.6.5 Dapper使用经验 60 2.7 Google应用程序引擎 62 2.7.1 Google App Engine简介 62 2.7.2 应用程序环境 63 2.7.3 Google App Engine服务 65 2.7.4 Google App Engine编程实践 72 习题 86 参考文献 86 第3章 Amazon云计算AWS 88 3.1 Amazon平台基础存储架构:Dynamo 88 3.1.1 Dynamo在Amazon服务平台的地位 88 3.1.2 Dynamo架构的主要技术 89 3.2 弹性计算云EC2 97 3.2.1 EC2的主要特性 97 3.2.2 EC2基本架构及主要概念 97 3.2.3 EC2的关键技术 99 3.3.4 EC2安全及容错机制 101 3.3 简单存储服务S3 102 3.3.1 基本概念和操作 102 3.3.2 数据一致性模型 104 3.3.3 S3安全措施 105 3.4 简单队列服务SQS 107 3.4.1 SQS基本模型 107 3.4.2 两个重要概念 107 3.4.3 消息 108 3.4.4 身份认证 109 3.5 简单数据库服务Simple DB 109 3.5.1 重要概念 110 3.5.2 存在的问题及解决办法 112 3.5.3 Simple DB和其他AWS的结合使用 112 3.6 关系数据库服务RDS 113 3.6.1 SQL和NoSQL数据库的对比 113 3.6.2 RDS数据库原理 114 3.6.3 RDS的使用 115 3.7 内容推送服务CloudFront 115 3.7.1 内容推送网络CDN 115 3.7.2 云内容推送CloudFront 117 3.8 其他Amazon云计算服务 119 3.8.1 快速应用部署Elastic Beanstalk和服务模板CloudFormation 119 3.8.2 云中的DNS服务 Router 53 119 3.8.3 虚拟私有云VPC 120 3.8.4 简单通知服务SNS和简单邮件服务SES 120 3.8.5 弹性MapReduce服务 120 3.8.6 电子商务服务DevPay、FPS和Simple Pay 122 3.8.7 Amazon执行网络服务 126 3.8.8 土耳其机器人 127 3.8.9 Alexa Web服务 128 3.9 AWS应用实例 129 3.9.1 在线照片存储共享网站SmugMug 129 3.9.2 在线视频制作网站Animoto 130 3.10 小结 131 习题 131 参考文献 131 第4章 微软云计算Windows Azure 135 4.1 微软云计算平台 135 4.2 微软云操作系统Windows Azure 136 4.2.1 Windows Azure概述 136 4.2.2 Windows Azure计算服务 137 4.2.3 Windows Azure存储服务 138 4.2.4 Windows Azure Connect 152 4.2.5 Windows Azure CDN 153 4.2.6 Fabric控制器 153 4.2.7 Windows Azure应用场景 155 4.3 微软云关系数据库SQL Azure 157 4.3.1 SQL Azure概述 157 4.3.2 SQL Azure关键技术 158 4.3.3 SQL Azure应用场景 160 4.3.4 SQL Azure和SQL Server对比 162 4.4 Windows Azure AppFabric 163 4.4.1 AppFabric概述 163 4.4.2 AppFabric关键技术 164 4.5 Windows Azure Marketplace 167 4.6 微软云计算编程实践 168 4.6.1 利用Visual Studio2010开发简单的云应用程序 168 4.6.2 向Windows Azure平台发布应用程序 170 习题 173 参考文献 173 第5章 VMware云计算 174 5.1 VMware云产品简介 174 5.1.1 VMware云战略三层架构 174 5.1.2 VMware vSphere架构 175 5.1.3 云操作系统vSphere 176 5.1.4 底层架构服务vCloud Service Director 177 5.1.5 虚拟桌面产品VMware View 178 5.2 云管理平台 vCenter 179 5.2.1 虚拟机迁移工具 179 5.2.2 虚拟机数据备份恢复工具 181 5.2.3 虚拟机安全工具 181 5.2.4 可靠性组件FT和HA 182 5.3 云架构服务提供平台vCloud Service Director 182 5.3.1 创建虚拟数据中心和组织 183 5.3.2 网络的设计 184 5.3.3 目录管理 184 5.3.4 计费功能 184 5.4 VMware的网络和存储虚拟化 184 5.4.1 网络虚拟化 184 5.4.2 存储虚拟化 186 习题 188 参考文献 188 第6章 Hadoop:Google云计算的开源实现 189 6.1 Hadoop简介 189 6.2 Hadoop分布式文件系统HDFS 190 6.2.1 设计前提与目标 190 6.2.2 体系结构 191 6.2.3 保障可靠性的措施 192 6.2.4 提升性能的措施 194 6.2.5 访问接口 195 6.3 分布式数据处理MapReduce 196 6.3.1 逻辑模型 196 6.3.2 实现机制 196 6.4 分布式结构化数据表HBase 197 6.4.1 逻辑模型 198 6.4.2 物理模型 198 6.4.3 子表服务器 199 6.4.4 主服务器 199 6.4.5 元数据表 200 6.5 Hadoop安装 200 6.5.1 在Linux系统中安装Hadoop 200 6.5.2 在Windows系统中安装Hadoop 208 6.6 HDFS使用 215 6.6.1 HDFS 常用命令 215 6.6.2 HDFS 基准测试 219 6.7 HBase安装使用 219 6.7.1 HBase的安装配置 219 6.7.2 HBase的执行 220 6.7.3 Hbase编程实例 221 6.8 MapReduce编程 223 6.8.1 矩阵相乘算法设计 223 6.8.2 编程实现 224 习题 226 参考文献 226 第7章 Eucalyptus:Amazon云计算的开源实现 228 7.1 Eucalyptus简介 228 7.2 Eucalyptus技术实现 229 7.2.1 体系结构 229 7.2.2 主要构件 230 7.2.3 访问接口 230 7.2.4 服务等级协议 231 7.2.5 虚拟组网 232 7.3 Eucalyptus安装与使用 233 7.3.1 在Linux系统中安装Eucalyptus 233 7.3.2 Eucalyptus配置和管理 236 7.3.3 Eucalyptus常用命令的示例和说明 238 习题 240 参考文献 240 第8章 其他开源云计算系统 241 8.1 简介 241 8.1.1 Cassandra 241 8.1.2 Hive 242 8.1.3 VoltDB 242 8.1.4 Enomaly ECP 243 8.1.5 Nimbus 244 8.1.6 Sector and Sphere 245 8.1.7 abiquo 247 8.1.8 MongoDB 247 8.2 Cassandra 249 8.2.1 体系结构 249 8.2.2 数据模型 250 8.2.3 存储机制 251 8.2.4 读/写删过程 252 8.3 Hive 254 8.3.1 整体构架 254 8.3.2 数据模型 255 8.3.3 HQL语言 257 8.3.4 环境搭建 259 8.4 VoltDB 260 8.4.1 整体架构 260 8.4.2 自动数据分片技术 261 习题 264 参考文献 264 第9章 云计算仿真器CloudSim 265 9.1 CloudSim简介 265 9.2 CloudSim体系结构 265 9.2.1 CloudSim核心模拟引擎 266 9.2.2 CloudSim层 268 9.2.3 用户代码层 271 9.3 CloudSim技术实现 271 9.4 CloudSim的使用方法 274 9.4.1 环境配置 274 9.4.2 运行样例程序 274 9.5 CloudSim的扩展 277 9.5.1 调度策略的扩展 277 9.5.2 仿真核心代码 280 9.5.3 平台重编译 286 习题 287 参考文献 287 第10章 云计算研究热点 288 10.1 云计算体系结构研究 288 10.1.1 Youseff划分方法 288 10.1.2 Lenk划分方法 290 10.2 云计算关键技术研究 292 10.2.1 虚拟化技术 292 10.2.2 数据存储技术 293 10.2.3 资源管理技术 295 10.2.4 能耗管理技术 298 10.2.5 云监测技术 301 10.3 编程模型研究 303 10.3.1 All-Pairs编程模型 303 10.3.2 GridBatch编程模型 304 10.3.3 其他编程模型 305 10.4 支撑平台研究 306 10.4.1 Cumulus:数据中心科学云 306 10.4.2 CARMEN:e-Science云计算 307 10.4.3 RESERVOIR:云服务融合平台 308 10.4.4 TPlatform:Hadoop的变种 309 10.4.5 P2P环境MapReduce 309 10.4.6 Yahoo云计算平台 311 10.4.7 微软的Dryad框架 311 10.4.8 Neptune框架 312 10.5 应用研究 313 10.5.1 语义分析应用 313 10.5.2 生物学应用 314 10.5.3 数据库应用 315 10.5.4 地理信息应用 316 10.5.5 商业应用 317 10.5.6 医学应用 318 10.5.7 社会智能应用 319 10.6 云安全研究 321 10.6.1 Anti-Spam Grid:反垃圾邮件网格 321 10.6.2 CloudAV:终端恶意软件检测 323 10.6.3 AMSDS:恶意软件签名自动检测 324 10.6.4 CloudSEC:协作安全服务体系结构 325 习题 327 参考文献 327 第11章 总结与展望 332 11.1 主流商业云计算解决方案比较 332 11.1.1 应用场景 332 11.1.2 使用流程 334 11.1.3 体系结构 335 11.1.4 实现技术 335 11.1.5 核心业务 336 11.2 主流开源云计算系统比较 338 11.2.1 开发目的 338 11.2.2 体系结构 339 11.2.3 实现技术 340 11.2.4 核心服务 340 11.3 国内代表性云计算平台比较 341 11.3.1 中国移动“大云” 341 11.3.2 阿里巴巴“阿里云” 343 11.3.3 “大云”与“阿里云”的比较 343 11.4 云计算的历史坐标与发展方向 344 11.4.1 互联网发展的阶段划分 344 11.4.2 云格(Gloud)——云计算的未来 347 习题 349 参考文献 349

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄笳倞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值