Hadoop速成大法（实践）

最新推荐文章于 2024-05-02 14:17:56 发布

JintuZheng

最新推荐文章于 2024-05-02 14:17:56 发布

阅读量570

点赞数

分类专栏：一本正经通识基础胡言乱语

本文链接：https://blog.csdn.net/rizero/article/details/117318721

版权

一本正经通识基础胡言乱语专栏收录该内容

38 篇文章 34 订阅

订阅专栏

实践：

1. 配置安装伪分布式（Windows）

【1】Path环境变量指定：%HADOOP_HOME%/bin
【2】设置\etc\hadoop\core-site.xml，设置dfs文件系统访问的访问通信端口

	<property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
    </property>

【3】设置\etc\hadoop\hdfs-site.xml，设置hdfs文件元信息存放的地方，replication是文件元文件的副本数量

  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <!--在windows上配置一定要/D:/这样写-->
    <value>/D:/win_hadoop_data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/D:/win_hadoop_data/datanode</value>
  </property>

【4】设置\etc\hadoop\mapred-site.xml，设置JobTracker，mr使用的工具是什么

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
  	<!--假如在Linux上实机需要写地址，但我们是伪分布式就不需要写下面的了-->
    <name>mapred.job.tracker</name> 
    <value>master:49001</value>
  </property>
  </property>

【5】设置：yarn-site.xml，资源分配时候的配置。

	<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>2</value>
    </property>

【6】对首次启动的HDFS系统进行格式化，在bin目录：hdfs namenode -format

如果在Windows上的java装在Program Files文件夹里面的话会报错，因为JAVA_HOME的路径不能有空格，换个地方就可以了

【7】然后去sbin目录下面启动start-all.cmd即可。我们通过访问：localhost:50070测试是否成功

需要对start-all.cmd 上添加：
在这里插入图片描述

2. 测试HDFS

我们需要配置安装Ecilpse企业版，安装之后，下载hadoop开发插件包，复制到对应的文件目录，然后重启ecilpse，新建项目时，如果指定类型为“MapReduce Project”。
配置，之后就可以直接再IDE里面看到DFS文件系统的目录了。

在这里插入图片描述

注意：DFS的访问接口是9000端口，MR访问的端口是8032。
再命令行使用命令：hdfs dfs -<do>，后面就是正常的文件操作命令了。

hdfs dfs -mkdir /test
hdfs dfs -put tmp.txt /test
hdfs dfs -rm /test/tmp.txt

3. MR编程入门例子：WordCount

先准备一个文本（一个英文小说）。下载地址：https://github.com/JintuZheng/Blog-/blob/master/Emma.txt

然后在eclipse新建一个MR工程

Mapper类：

我们完成的是<K1,V1>到<K2,V2>的映射，IntWritable是用于将数据进行序列化传输的类型，当然我们也可以自定义。

传参格式：
【1】extends Mapper<（Object, Text）=（K1，V1）, （Text, IntWritable）=（K2，V2）>
【2】protected void map(Object key, Text value （K1，V1）, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException

在Mapper类里面，我们可以重载run，step，map，cleanup函数，一般我们只需要把map函数进行重载即可。传参三个，输入的KV，以及context类，这个context类用于数据收集的容器，MR的输入和输出都是文件，因此，如果我们设置了输出文件的格式的话可以把最后的计算结果写入到文件。（这个写入过程无需我们考虑）

map函数完成v1到v2的映射，reduce函数完成的是从List< V2 >到v3的映射

package wordCount;
import java.io.IOException;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapred.*;

public class Step1Mapper extends Mapper<Object, Text, Text, IntWritable>{
	@Override
	protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException{
		String lineContent = value.toString(); // Get line content
		String result[] = lineContent.split(" "); // split line to get word
		//将v1分割成多个键对
		for (int x = 0; x < result.length; x++) {
			context.write(new Text(result[x]), new IntWritable(1));
		}
	}
}

Reduce类：

传参格式：
【1】extends Reducer<（Text, IntWritable）=（K2，V2）, （Text, IntWritable）=（K3，V3）>
【2】protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context)

package wordCount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class Step1Reducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException{
		int sum = 0;
		for(IntWritable count : values) {
			sum+=count.get();
		}
		context.write(key, new IntWritable(sum));
	}
}

Job主程序：

package wordCount;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.lib.output.*;

public class main {

	public static void main(String[] args) throws Exception{
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf); //书写Job配置初始化
		
		job.setJarByClass(main.class);
		
		job.setMapperClass(Step1Mapper.class);
		job.setReducerClass(Step1Reducer.class);
		
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		FileInputFormat.setInputPaths(job, new Path("D:/fs_local/in")); // 默认对所有的文件进行操作，无需指定单独文件路径
		FileOutputFormat.setOutputPath(job, new Path("D:/fs_local/out"));
		
		job.waitForCompletion(true);
	}

}