【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程

大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


一定要先看的前言

几个注意事项:

  1. 本篇博客会提供所有安装需要的资源,大家下载我提供的资料就好,避免如版本不对应等不必要的问题出现;
  2. 在安装过程中会涉及一些环境配置,希望大家解压的目录地址最好和我的一样,这样既可以直接复制我提供的文本信息,也可以避免粗心导致的问题;
  3. 本篇博客会提供所有大家需要更改的文本,大家直接复制即可,不要自己手打了;
  4. 没装JDK的朋友可以先安装完再来。

1 安装Hadoop

1.1 下载并解压资源

链接:https://pan.baidu.com/s/1gSo09Tv8GytCt6dwCr3JNA
提取码:1024

下载完如下图解压即可,注意我这里是直接解压到E盘。
在这里插入图片描述
补充:原有的hadoop-2.7.7/bin目录下没有文件是winutils和hadoop.dll文件的,需要下载hadooponwindows-master并将其bin覆盖原先的bin,这里我提供的资源是已经覆盖了的,可省略该操作。

1.2 配置系统变量和环境变量

1.2.1 系统变量

变量名:HADOOP_HOME
变量值:E:\Hadoop\hadoop-2.7.7
在这里插入图片描述

1.2.2 环境变量

在这里插入图片描述
环境变量值:%HADOOP_HOME%\bin

1.2.3测试

打开CMD,输入hadoop,如下图则为配置成功。
在这里插入图片描述

1.3 复制文件

E:\Hadoop\hadoop-2.7.7\bin目录下的hadoop.dll复制到E:\Hadoop\hadoop-2.7.7\sbin以及C:\Windows\System32这两个目录下。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4 修改配置文件

1.4.1 创建目录

修改之前先创建以下几个空目录:
E:\Hadoop\hadoop-2.7.7\data
E:\Hadoop\hadoop-2.7.7\data\dfs
E:\Hadoop\hadoop-2.7.7\data\dfs\datanode
E:\Hadoop\hadoop-2.7.7\data\dfs\namenode
在这里插入图片描述

1.4.2 修改5个文件

第一个是E:\Hadoop\hadoop-2.7.7\etc\hadoop下的core-site.xml文件。

打开该文件,找到如下位置。
在这里插入图片描述
将红色部分的内容更改为如下内容:

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>
</configuration>

在这里插入图片描述
第二个是E:\Hadoop\hadoop-2.7.7\etc\hadoop下的hdfs-site.xml文件。

打开该文件,找到如下位置。
在这里插入图片描述
将红色部分的内容更改为如下内容,注意路径是否需要更改。

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<property>
		<name>dfs.namenode.http-address</name>
		<value>localhost:50070</value>
	</property>
	<property>
		<name>dfs.namenode.dir</name>
		<value>/E:/Hadoop/hadoop-2.7.7/data/dfs/namenode</value>
	</property>
	<property>
		<name>dfs.datanode.name.dir</name>
		<value>/E:/Hadoop/hadoop-2.7.7/data/dfs/datanode</value>
	</property>
</configuration>

在这里插入图片描述

第三个是E:\Hadoop\hadoop-2.7.7\etc\hadoop下的mapred-site.xml.template文件。

打开该文件,找到如下位置。
在这里插入图片描述
将红色部分的内容更改为如下内容。

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<property>
		<name>mapred.job.tracker</name>
		<value>hdfs://localhost:9001</value>
	</property>
</configuration>

在这里插入图片描述
改完记得将mapred-site.xml.template改名为mapred-site.xml。

第四个是E:\Hadoop\hadoop-2.7.7\etc\hadoop下的yarn-site.xml文件。

打开该文件,找到如下位置。
在这里插入图片描述
将红色部分的内容更改为如下内容。

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>
</configuration>

在这里插入图片描述
第五个是E:\Hadoop\hadoop-2.7.7\etc\hadoop下的hadoop-env.cmd文件。

因为是cmd文件,所以我是用UE打开的,当然了大家可以先把后缀改成txt,修改完再更改回来。

具体来说,就是在文件的最后添加如下语句。

@rem set JAVA_HOME=%JAVA_HOME%
set JAVA_HOME=E:\JDK8

在这里插入图片描述
这里的E:\JDK8是我的JDK环境变量值,大家需要根据自己的进行更改,下图是查询方法。

在这里插入图片描述

1.5 格式化HDFS

打开CMD,输入hdfs namenode -format

在这里插入图片描述

1.6 开启四个进程

管理员身份打开CMD,切换到E:\Hadoop\hadoop-2.7.7\sbin目录下,输入命令:start-all.cmd

在这里插入图片描述

在这里插入图片描述
输入命令:jps测试是否开启成功。
在这里插入图片描述

1.7 测试Hadoop DFS

打开浏览器,在地址栏输入http://localhost:50070查看Hadoop状态
在这里插入图片描述
输入http://localhost:8088查看集群状态。
在这里插入图片描述
此时安装Hadoop成功。

2 安装Hive MySQL版本

2.1 下载并解压资源

官网下载:http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz
其他下载方式:
链接:https://pan.baidu.com/s/1Or5Q5EwD-RBx5bLHzfpI-Q
提取码:1024

下载完之后,直接解压到E盘,如图。
在这里插入图片描述
紧接着是下载MySQL驱动。

官网下载:https://dev.mysql.com/downloads/file/?id=476197
在这里插入图片描述
其他下载方式:
链接:https://pan.baidu.com/s/1cl8SY-c4uFyL8MLPKtk6PA
提取码:1024

下载完后,也是直接解压到E盘。

解压完,将E:\mysql-connector-java-5.1.46目录下的mysql-connector-java-5.1.46-bin.jar复制到E:\apache-hive-2.1.1-bin\lib目录下,如图所示。

在这里插入图片描述
在这里插入图片描述

2.2 配置系统变量和环境变量

2.2.1 系统变量

变量名:HIVE_HOME
变量值:E:\apache-hive-2.1.1-bin
在这里插入图片描述

2.2.2 环境变量

变量值: %HIVE_HOME%\bin在这里插入图片描述

2.3 Hive config配置

如图,找到E:\apache-hive-2.1.1-bin\conf目录下的4个文件。
在这里插入图片描述
按照如下方式进行更改:

hive-default.xml.template -> hive-site.xml
hive-env.sh.template -> hive-env.sh
hive-exec-log4j2.properties.template -> hive-exec-log4j2.properties
hive-log4j2.properties.template -> hive-log4j2.properties

在这里插入图片描述

2.4 创建目录

创建以下几个空目录:
E:\apache-hive-2.1.1-bin\my_hive
E:\apache-hive-2.1.1-bin\my_hive\operation_logs_dir
E:\apache-hive-2.1.1-bin\my_hive\querylog_dir
E:\apache-hive-2.1.1-bin\my_hive\resources_dir
E:\apache-hive-2.1.1-bin\my_hive\scratch_dir
在这里插入图片描述

2.5 修改 hive-env.sh

找到E:\apache-hive-2.1.1-bin\conf下的hive-env.sh文件。

找到下图中的位置:
在这里插入图片描述
将其替换为如下内容:

# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=E:\Hadoop\hadoop-2.7.7

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=E:\apache-hive-2.1.1-bin\conf

# Folder containing extra ibraries required for hive compilation/execution can be controlled by:
export HIVE_AUX_JARS_PATH=E:\apache-hive-2.1.1-bin\lib

在这里插入图片描述
注意路径问题。

2.6 修改hive-site.xml

这里需要修改的较多,我直接把我已经修改好的文件上传到网盘上,大家下载即可。

链接:https://pan.baidu.com/s/1p3cGCpRn7UUW96icyfUxEA
提取码:1024

这里需要注意的是,

你的Hive的解压路径是否和我一样,不一样就得更改,一共是4处。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

然后还有连接数据库的问题,账号是否为root,密码是否为123456,端口是否为3306,如果不一样,就需要更改,如下。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.7 在Hadoop上创建HDFS目录

命令如下(记得先启动Hadoop):
hadoop fs -mkdir /tmp
hadoop fs -mkdir /user/
hadoop fs -mkdir /user/hive/
hadoop fs -mkdir /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

如图:
在这里插入图片描述

2.8 创建MySQL数据库

使用命令的方式:

create database if not exists hive default character set latin1;

或者用Navicat创建也可以。
在这里插入图片描述

2.9 启动Hadoop

以管理员身份打开CMD,切换到E:\Hadoop\hadoop-2.7.7\sbin命令下,输入命令start-dfs.cmd
在这里插入图片描述

2.10 启动Hive metastore服务

以管理员身份打开CMD,输入命令hive --service metastore
在这里插入图片描述
如果hive数据库下出现了许多表,则开启成功。

在这里插入图片描述
补充:只有第一次打开需要输入hive --service metastore

2.11 启动Hive

打开CMD,输入命令hive.cmd
在这里插入图片描述
这个时候就可以输入HQL语句啦。

我们输入一个create table stu(id int, name string)
在这里插入图片描述
然后再浏览器地址栏输入:http://localhost:50070/explorer.html#/user/hive/warehouse

在这里插入图片描述
创建表成功!

结束语

我已经尽可能地将安装过程详细地展现出来了,如果还是有问题的朋友,可以评论留下你的问题。

参考资料:
https://blog.csdn.net/qinlan1994/article/details/90413243
https://blog.csdn.net/chy2z/article/details/80974294


想接触数据分析实战项目和技能学习,可以关注我的数据分析专栏

CSDN@报告,今天也有好好学习

  • 38
    点赞
  • 147
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 52
    评论
### 回答1: 在Windows下使用IntelliJ IDEA连接Spark和Hive,需要进行以下步骤: 1. 安装Java和Spark:首先需要安装Java和Spark,并设置环境变量。 2. 下载Hive JDBC驱动:从Apache Hive官网下载Hive JDBC驱动,并将其添加到Spark的classpath中。 3. 创建SparkSession:在Java代码中创建SparkSession对象,并设置连接Hive的参数,如下所示: ``` SparkSession spark = SparkSession.builder() .appName("SparkHiveExample") .config("spark.sql.warehouse.dir", "/user/hive/warehouse") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate(); ``` 其中,`spark.sql.warehouse.dir`指定Hive数据仓库目录,`hive.metastore.uris`指定Hive的元数据存储地址。 4. 执行Hive查询:使用SparkSession对象执行Hive查询,如下所示: ``` Dataset<Row> result = spark.sql("SELECT * FROM mytable"); result.show(); ``` 其中,`mytable`是Hive中的表名。 通过以上步骤,就可以在Windows下使用IntelliJ IDEA连接Spark和Hive了。 ### 回答2: 在Windows操作系统下,使用IntelliJ IDEA连接Apache Spark到Apache Hive需要以下步骤: 1. 安装Spark<br> 首先需要安装Apache Spark,并将路径添加到系统环境变量中。建议使用最新本的Spark,因为这些本支持最新本的Hive。 2. 安装Hadoop<br> 要访问Hive,需要安装Hadoop并将路径添加到系统环境变量中。Spark使用Hadoop API访问HDFS,并通过Hive Metastore来访问Hive表。 3. 添加Spark样例库<br> 在IntelliJ IDEA中打开菜单“文件/设置”,然后在左侧窗格中选择“Libraries”。点击“+”图标,选择“Java”,然后选择Spark样例库的路径,然后点击“OK”。 4. 连接到Hive<br> 创建一个Scala或Java项目。然后在IDEA中打开窗口“View”菜单下的“Tool Windows”,然后单击“Database”。 在“Database”窗口中,单击“+”图标,然后选择“Data Source” -> “Hive”。输入Hive Metastore的URL、用户名和密码,然后单击“Test Connection”以测试连接是否正常。 5. 创建连接<br> 在“Database”窗口中,单击“+”图标,然后选择“Data Source” -> “Spark SQL”。输入Spark Master的URL,单击“Test Connection”以测试连接是否正常。 6. 创建Spark应用<br> 创建一个新的Scala或Java类,并添加以下依赖项: ``` "org.apache.spark" %% "spark-core" % "2.4.7" "org.apache.spark" %% "spark-sql" % "2.4.7" % "provided" ``` 编写Spark应用程序来连接到Hive表,例如: ```scala val spark = SparkSession.builder() .appName("Hive Spark Connection") .config("hive.metastore.uris", "thrift://localhost:9083") .enableHiveSupport() .getOrCreate() val df = spark.sql("select * from testdb.testtable") df.show() ``` 7. 运行应用程序<br> 如果应用程序没有运行,可以单击“Run”按钮,或使用命令行运行程序: ```bash spark-submit --class com.example.MyApp --master local[*] myapp.jar ``` 这就是使用IntelliJ IDEA和Spark连接到Hive的基本步骤。通过这种方法可以方便地使用Spark和Hive进行大数据处理。 ### 回答3: 在Windows下使用IDEA连接Spark和Hive,需要准备以下环境: 1.安装Java JDK和Hadoop 首先需要安装Java JDK和Hadoop。建议使用Java 8本,同时要确保Hadoop已经正确安装。在Windows安装Hadoop,可以参考官方文档或者其他教程。 2.安装Spark和Hive组件 接下来需要安装Spark和Hive组件。可以直接在官方网站上下载安装包进行安装,或者使用Maven进行自动化管理。 3.配置IDEA开发环境 在IDEA中,需要添加Spark和Hive相关依赖的jar包。可以在POM文件中添加依赖,也可以手动添加Jar包。 同时,还需要配置Spark和Hive的配置参数,主要包括以下内容: (1)Spark的Master和AppName (2)Hive Thrift Server的地址和端口 (3)Hive的JDBC驱动程序 (4)Hive的用户名和密码 (5)Hive的默认数据库名称 上述配置可以在IDEA的“Run Configuration”中进行设置。 4.编写代码连接Spark和Hive 在IDEA中,可以使用Scala或Java编写代码连接Spark和Hive。示例代码如下: ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession.builder.appName("connectHive").master("local").getOrCreate() val df = spark.read.format("jdbc").option("url", "jdbc:hive2://hive-server:10000/default").option("driver", "org.apache.hive.jdbc.HiveDriver").option("user", "hive").option("password", "hive").option("dbtable", "mytable").load() df.show() ``` 在这个示例代码中,首先创建了一个Spark Session,并指定Master和AppName。然后使用Spark SQL的API连接Hive,通过HiveServer2访问Hive中的“mytable”表,最后展示查询结果。 总之,在Windows下使用IDEA连接Spark和Hive,需要安装Java JDK、Hadoop、Spark和Hive组件,配置IDEA开发环境,然后使用Scala或Java编写连接代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 52
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

报告,今天也有好好学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值