Hadoop3 Hive Spark完整安装与实践

最新推荐文章于 2024-06-29 14:45:45 发布

JasonCPLUS

最新推荐文章于 2024-06-29 14:45:45 发布

阅读量723

点赞数 1

分类专栏：技术总结

本文链接：https://blog.csdn.net/qq_37654497/article/details/109527802

版权

技术总结专栏收录该内容

7 篇文章 0 订阅

订阅专栏

大数据实践 Hadoop3 Hive Spark完全安装

在下载目录下打开终端，移动下载好的文件到/usr/local
```
sudo mv 文件名 /usr/local
```
在/usr/local中解压文件
```
cd /usr/local
sudo tar -zxvf 文件名
```
改个名
```
sudo mv 文件名 简称
```

安装一些工具

sudo apt-get update
sudo apt-get install -y openssh-client openssh-server vim ssh unzip

安装java

sudo apt install openjdk-8-jdk openjdk-8-jre

配置java环境变量

sudo gedit ~/.bashrc

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre

保存退出后刷新、验证

source ~/.bashrc
java -version

Lab 1

Hadoop配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/hadoop
```

给hadoop添加环境变量

sudo gedit ~/.bashrc

在最后添加

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存退出后刷新、验证

source ~/.bashrc
hadoop version

给HDFS的NameNode和DataNode建立文件夹，建立保存日志的文件夹

mkdir -p $HADOOP_HOME/hdfs/namenode
mkdir -p $HADOOP_HOME/hdfs/datanode
mkdir $HADOOP_HOME/logs

进入hadoop的配置文件夹
```
cd $HADOOP_HOME/etc/hadoop
ls
```

在Hadoop-env.sh中添加JAVA_HOME

gedit hadoop-env.sh

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存退出

配置core-site.xml

gedit core-site.xml

在<configuration>中添加

 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://bigdata-master:9000/</value>
 </property>

保存退出

配置hdfs-site.xml

gedit hdfs-site.xml

在<configuration>中添加

 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:///usr/local/hadoop/hdfs/namenode</value>
 <description>NameNode directory for namespace and transaction logs storage.</description>
 </property>
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:///usr/local/hadoop/hdfs/datanode</value>
 <description>DataNode directory</description>
 </property>
 <property>
 <name>dfs.replication</name>
 <value>2</value>
 </property>

保存退出

配置mapred-site.xml

gedit mapred-site.xml

在<configuration>中添加

 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
 <property>
 <name>yarn.app.mapreduce.am.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>
 <property>
 <name>mapreduce.map.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>
 <property>
 <name>mapreduce.reduce.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>

保存退出

配置yarn-site.xml

gedit yarn-site.xml

在<configuration>中添加

 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
 <property>
 <name>yarn.resourcemanager.hostname</name>
 <value>bigdata-master</value>
 </property>

保存退出

调整log level (optional)

gedit log4j.properties

在最后添加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

保存退出

免密码登陆

ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

初始化Namenode
```
hdfs namenode -format
```
重启一下ssh
```
sudo /etc/init.d/ssh restart
```
运行hadoop
```
start-all.sh
```
查看进程
```
jps
```
打开浏览器，地址栏输入localhost:9870

HDFS操作

在图形界面的Utilities-Browse the file system可以看到可视化的HDFS文件目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y3LvqMsR-1604631818431)(/Users/yiger/Library/Application Support/typora-user-images/截屏2020-11-05 下午2.54.01.png)]

添加一个目录

hadoop fs -mkdir /user/用户名/wordcount/input

上传一个文件到该HDFS目录中（以README.txt为例）

cd $HADOOP_HOME
hadoop fs -copyFromLocal README.txt /user/用户名/wordcount/input
# hadoop fs -ls -R

MapReduce操作（optional）

Lab2

Hive配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/hive
```
给hadoop添加环境变量
```
sudo gedit ~/.bashrc
```
在最后添加
```
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
```
保存退出后刷新、验证
```
source ~/.bashrc
hive --version
```
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V43bAb7q-1604631818434)(/Users/yiger/Desktop/截屏2020-11-05 下午3.26.41.png)]
进入hive的配置文件夹
```
cd $HIVE_HOME/conf
ls
```

重命名模板文件并复制一个用户自定义配置文件hive-site.xml

mv hive-default.xml.template hive-default.xml
cp hive-default.xml hive-site.xml

编辑hive-site.xml

gedit hive-site.xml

在<configuration>中添加

  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.cj.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>username to use against metastore database</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>密码</value>
    <description>password to use against metastore database</description>
  </property>

密码设置尽量复杂，如：Mysql@123

保存后退出

安装mysql
```
sudo apt-get install mysql-server
```
进入mysql shell创建用户并授权
```
sudo mysql
```
查看当前database、用户
```
show databases;
select user from mysql.user;
```
如果有Navicat、DataGrip等工具可以建立一个允许全网访问的用户’external_test’@’%'并在本机上尝试连接

添加一个hive用户并授最高权限，检查用户表
```
grant all privileges on *.* to 'hive'@'localhost' identified by '密码'; 
select user from mysql.user;
```
退出exit;
配置mysql jdbc

在虚拟机中打开https://dev.mysql.com/downloads/connector/j/选择对应版本下载

解压到/usr/local/mysql_jdbc目录

sudo dpkg-deb --extract 文件名 /usr/local/mysql_jdbc

进入解压好的文件夹并找到jar包

cd /usr/local/mysql_jdbc/usr/share/java
ls

把这个jar包拷贝到hive里

cp 文件名 /usr/local/hive/lib

重启mysql并进入shell

service mysql stop
service mysql start
sudo mysql

创建数据库

create database hive;
show databases;

删除版本冲突的包

cd /usr/local/hive/lib
rm -rf guava-19.0.jar

利用schematool初始化元数据配置更改到mysql中

schematool -dbType mysql -initSchema

启动hive

hive

Hive操作

查看数据库
```
show databases;
```
创建数据库
```
create database test_hive;
```
在hdfs中查看

创建表

create table if not exists usr(
id bigint,
name string,
age int);

查看表
```
show tables in test_hive；
```
删库
```
drop database test_hive;
```

Lab3

Spark配置

给文件夹添加最高权限
```
sudo chmod 777 /usr/local/spark
```

给hadoop添加环境变量

sudo gedit ~/.bashrc

在最后添加

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

保存退出后刷新

source ~/.bashrc

进入spark的配置文件夹

cd $SPARK_HOME/conf
ls

使用三个模板文件

mv spark-defaults.conf.template spark-defaults.conf
mv slaves.template slaves
mv spark-env.sh.template spark-env.sh

启动spark并检验

cd /usr/local/spark/sbin
./start-all.sh
jps

Lab4

SparkSQL配置

进入spark的配置文件夹

cd $SPARK_HOME/conf

打开spark-defaults.conf

gedit spark-defaults.conf

在最后添加

spark.sql.warehouse.dir hdfs://localhost:9000/user/hive/warehouse

保存退出

复制hadoop、hive配置文件到spark中

cp /usr/local/hive/conf/hive-site.xml  /usr/local/spark/conf
cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf

复制jdbc到spark中

cp /usr/local/hive/lib/mysql-connector-java-x.x.x.jar  /usr/local/spark/jars

启动spark-sql
```
spark-sql
```

SparkSQL操作

查看数据库
```
show databases;
```
创建数据库
```
create database test_sparksql;
```
在hdfs中查看

pyspark操作

进入pyspark
```
pyspark
```

统计词频

textFile = spark.read.text("wordcount/input/README.txt")
textFile.count()

使用spark.sql执行sql语句

df = spark.sql("show databases")
df.show()

建库

spark.sql("create database test_pyspark_sql")

在hdfs中查看

JasonCPLUS

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop3 Hive Spark完整安装与实践

大数据实践 Hadoop3 Hive Spark完全安装在下载目录下打开终端，移动下载好的文件到/usr/localsudo mv 文件名 /usr/local在/usr/local中解压文件cd /usr/localsudo tar -zxvf 文件名改个名sudo mv 文件名简称[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ee5wpq3W-1604631818415)(/Users/yiger/Desktop/截屏2020-1
复制链接

扫一扫