【平台搭建+数据处理+数据可视化】

本文详细介绍了如何搭建大数据平台,包括Hadoop、Spark、Hive的配置与安装,以及数据清洗的多种方法,如异常值处理、缺失值填充等。此外,还涉及了数据统计分析和数据可视化的初步探讨,包括Seaborn和Pyecharts库的使用技巧。
摘要由CSDN通过智能技术生成

第一部分:大数据平台搭建

一、Hadoop

1、完全分布式Hadoop集群搭建:

(1)在master主节点将/opt目录下的Hadoop安装包hadoop-3.1.4.tar.gz解压到/opt/software目录下。

mkdir -p /opt/software

tar -zxf /opt/hadoop-3.1.4.tar.gz -C /opt/software

(2)创建Hadoop临时数据目录、NameNode元数据目录、DataNode数据存储目录等相关路径。

# 进入Hadoop的安装目录

cd /opt/software/hadoop-3.1.4

# 创建Hadoop相关目录

mkdir -p ./hadoopDatas/tempDatas

mkdir -p ./hadoopDatas/namenodeDatas

mkdir -p ./hadoopDatas/datanodeDatas

(3)修改Hadoop配置文件

core-site.xml

<property>

    <name>fs.defaultFS</name>

      <value>hdfs://master:8020</value>

      </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/opt/software/hadoop-3.1.4/hadoopDatas/tempDatas</value>

    </property>

hdfs-site.xml

<property>

    <name>dfs.namenode.name.dir</name>

<value>file:///opt/software/hadoop3.1.4/hadoopDatas/namenodeDatas</value>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///opt/software/hadoop-3.1.4/hadoopDatas/datanodeDatas</value>

</property>

<property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>slave2:9868</value>

</property>

<property>

     <name> dfs.namenode.http-address </name>

     <value> master:9870</value>

</property>

mapred-site.xml

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>master:19888</value>

    </property>

yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

workers

master

slave1

slave2

hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

(4)修改Hadoop安装目录sbin目录下的start-dfs.sh、stop-dfs.sh、start-yarn.sh、stop-yarn.sh脚本。

start-dfs.sh与停止脚本stop-dfs.sh

HDFS_DATANODE_USER=root

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh和停止脚本stop-yarn.sh

YARN_RESOURCEMANAGER_USER=root

YARN_NODEMANAGER_USER=root

(5)将master节点已经配置好的Hadoop安装目录远程传输到slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/hadoop-3.1.4 slave1:/opt/software/

scp -r /opt/software/hadoop-3.1.4 slave2:/opt/software/

(6)在各节点的/etc/profile

# 在master节点通过命令“vi /etc/profile”修改profile文件,文件末尾添加内容

export HADOOP_HOME=/opt/software/hadoop-3.1.4

export PATH=$PATH:$HADOOP_HOME/bin      

source /etc/profile# 使配置生效

分发profile文件到子节点

scp /etc/profile slave1:/etc/profile

使子节点环境变量生效

ssh slave1 "source /etc/profile"

(7)在master上进行HDFS格式化,若出现“successfully formatted”提示,则格式化成功。

/opt/software/hadoop-3.1.4/bin/hdfs namenode -format

(8)在master节点执行命令启动Hadoop的HDFS、YARN服务,并查看各节点进程。

cd /opt/software/hadoop-3.1.4/sbin

./start-dfs.sh

./start-yarn.sh

二、spark

(1)在master节点将/opt目录下的spark-3.2.1-bin-hadoop3.2.tgz安装包解压到/opt/software目录下,并将解压后的spark-3.2.1-bin-hadoop3.2文件夹更名为spark-3.2.1。

mkdir -p /opt/software

tar -zxf /opt/spark-3.2.1-bin-hadoop3.2.tgz -C /opt/software

mv /opt/software/spark-3.2.1-bin-hadoop3.2 /opt/software/spark-3.2.1

(2)进入Spark安装目录的conf目录,将workers.template重命名为workers,之后修改workers文件,注释原文件内容并添加slave1和slave2。

cd /opt/software/spark-3.2.1/conf 

cp workers.template workers

vi workers

slave1

slave2# 按“i”进入编辑模式后注释原文件内容并添加以下内容

(3)修改spark-defaults.conf配置文件。

spark.master                               spark://master:7077

spark.eventLog.enabled              true

spark.eventLog.dir                       hdfs://master:8020/spark-logs

spark.history.fs.logDirectory        hdfs://master:8020/spark-logs

(4)修改spark-env.sh配置文件。

JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

HADOOP_CONF_DIR=/usr/local/hadoop-3.1.4/etc/hadoop

SPARK_MASTER_IP=master

SPARK_MASTER_WEBUI_PORT=8085

SPARK_MASTER_PORT=7077

SPARK_WORKER_MEMORY=512m

SPARK_WORKER_CORES=1

SPARK_EXECUTOR_MEMORY=512m

SPARK_EXECUTOR_CORES=1

SPARK_WORKER_INSTANCES=1

(5)在master节点上启动Hadoop集群,并在HDFS中新建目录/spark-logs。

$HADOOP_HOME/sbin/start-all.sh

hdfs dfs -mkdir /spark-logs

(6)将master节点配置好的Spark文件远程发送至slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/spark-3.2.1/ slave1:/opt/software/

scp -r /opt/software/spark-3.2.1/ slave2:/opt/software/

(7)在master节点修改/etc/profile文件,设置Spark环境变量SPARK_HOME和PATH的值,并使配置文件立即生效。

# 在master节点通过命令“vi /etc/profile”修改profile文件,文件末尾添加内容

export SPARK_HOME=/opt/software/spark-3.2.1

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

scp /etc/profile slave1:/etc/profile

ssh slave1 "source /etc/profile"

(8)启动Spark集群,使用jps查看各节点的进程,同时在浏览器“http://master:8085”访问Spark的监控界面。

cd /opt/software/spark-3.2.1/sbin

./start-all.sh

jps

ssh slave1 "/usr/java/jdk1.8.0_281-amd64/bin/jps"

三、hive

(1)下载Hive安装包到本地data目录并解压

tar -zxf /data/apache-hive-3.1.2-bin.tar.gz -C /usr/local/

(2)hive-env.sh

export HADOOP_HOME=/usr/local/hadoop-3.1.4 //最后文本最后加

(3)在Hive安装目录的conf目录下新建hive-site.xml配置文件添加参数及对应参数值;同时根据需要补充存储临时数据路径、查询日志存储路径、元数据存储服务URI、查询时使用的执行引擎等其它参数,参数值自行决定。

# 新建hive-site.xml文件并添加参数

vi hive-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <description>元数据库位置</description>

        <name>hive.metastore.warehouse.dir</name>

        <value>hdfs://master:8020/user/hive/warehouse</value>

    </property>

    <property>

        <description>元数据连接字符串</description>

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值