centos7开发java体验_同样的Java，完全不一样的HDInsight大数据开发体验-CSDN博客

本文链接：https://blog.csdn.net/weixin_39759918/article/details/111627968

大数据的热潮一直居高不下，每个人都在谈。你也许不知道，早些年这个领域可是有个非常「惹眼球」的段子：

简单翻译一下：大数据就像青少年之间的【敏感词】：每个人都在谈，可没人真正知道该怎么做，但每个人都认为其他人正在做，所以所有人都说自己也正在做……反正前美国麻省理工大学(MIT)教授，现美国杜克大学(Duke University)教授 Dan Ariely 是这么说的

那么，具体该怎么做呢？今天，我要教教大家如何运用 Java 语言，为 HDInsight 上的 Hadoop 开发一个 MapReduce 程序，借此玩转大数据。

1首先开始科普

什么是 HDInsight

Azure HDInsight 是 Hortonworks Data Platform (HDP) 提供的 Hadoop 组件的云发行版，适用于对计算机集群上的大数据集进行分布式处理和分析。目前 HDInsight 可提供以下集群类型：Apache Hadoop、Apache Spark、Apache HBase、Apache Storm、Apache 交互式 Hive(预览版)，以及其他包含脚本操作的自定义集群。

什么是 Hadoop

Hadoop 技术堆栈包括相关的软件和实用程序(Apache Hive、HBase、Spark 等)，通常包含 Hadoop 分布式文件系统 (HDFS)、适用于作业计划和资源管理的 YARN、适用于并行处理的 MapReduce。Hadoop 最常用于已存储数据的批处理。

什么是 MapReduce

MapReduce 是一个旧软件框架，用于编写并行批量处理大数据集的应用程序。MapReduce 作业将分割大型数据集，并将数据组织成键值对进行处理。MapReduce作业在 YARN 上运行。

什么是 Java

这个真有必要解释？

通过 Azure HDInsight 服务使用 Hadoop，可以获得很多便利，例如：减少了设置和配置工作，提高了可用性和可靠性，可在不中断作业的情况下进行动态缩放，可灵活使用组件更新和当前版本，并且能与其他 Azure 服务(包括 Web 应用和 SQL 数据库)集成。

机智的你理解这些概念了么，接下来我们一起来用 Java 开发一个 MapReduce 程序，然后通过 HDInsight 服务运行吧。

2前期准备

首先你需要准备好 Java JDK 8 或更高版本以及 Apache Maven，随后按照下列方式配置开发环境：

设置环境变量

请在安装 Java 和 JDK 时设置以下环境变量(同时请注意检查这些环境变量是否已经存在并且包含正确的值)：

JAVA_HOME -应该指向已安装 Java 运行时环境 (JRE)的目录。例如在macOS、Unix 或 Linux 系统上，值应该类似于 /usr/lib/jvm/java-7-oracle；在Windows 中，值类似于 c:ProgramFiles (x86)Javajre1.7。
PATH - 应该包含以下路径：

JAVA_HOME(或等效路径)

JAVA_HOMEbin(或等效路径)

安装 Maven 的目录

创建 Maven 项目

1、在开发环境中，通过中断会话或命令行将目录更改为要存储此项目的位置。

2、使用随同 Maven 一起安装的 mvn 命令，为项目生成基架。