目录
1、打包作业
通过在maven的pom.xml文件加入如下的代码即可指定jar文件的主类
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<configuration>
<archive>
<manifest>
<mainClass>ls.wordcount.WordCount</mainClass>
<addClasspath>true</addClasspath>
<classpathPrefix>lib/</classpathPrefix>
</manifest>
</archive>
<classesDirectory>
</classesDirectory>
</configuration>
</plugin>
</plugins>
</build>
META-INF文件夹下的MANIFEST.MF文件包含主类的信息,如下:
Created-By: Apache Maven 3.3.9
Main-Class: ls.wordcount.WordCount
Archiver-Version: Plexus Archiver
2、 启动作业
hadoop jar xxx.jar 参数
3、 MapReduce的Web界面
3.1、资源管理器界面
http://resource-manager-host:8088/
3.2、MapReduce作业界面
4、Hadoop日志
6、 远程调试
7、作业调优
8、MapReduce的工作流
8.1、 将问题分解成MapReduce作业
8.2、 关于JobControl
8.3 、关于Apache Oozie
8.3.1、定义oozie工作流
基于xml格式书写
推荐书籍
《mapreduce数据密集型文本处理》
参考:
Hadoop权威指南.大数据的存储与分析.第4版---第6章 MapReduce应用开发