【平台搭建+数据处理+数据可视化】

sc.溯琛

已于 2024-05-07 23:03:05 修改

阅读量819

点赞数 24

文章标签：信息可视化数据分析数据挖掘 python

于 2024-05-07 22:59:20 首次发布

本文链接：https://blog.csdn.net/m0_71868960/article/details/138445366

版权

本文详细介绍了如何搭建大数据平台，包括Hadoop、Spark、Hive的配置与安装，以及数据清洗的多种方法，如异常值处理、缺失值填充等。此外，还涉及了数据统计分析和数据可视化的初步探讨，包括Seaborn和Pyecharts库的使用技巧。

摘要由CSDN通过智能技术生成

第一部分：大数据平台搭建

一、Hadoop

1、完全分布式Hadoop集群搭建：

（1）在master主节点将/opt目录下的Hadoop安装包hadoop-3.1.4.tar.gz解压到/opt/software目录下。

mkdir -p /opt/software

tar -zxf /opt/hadoop-3.1.4.tar.gz -C /opt/software

（2）创建Hadoop临时数据目录、NameNode元数据目录、DataNode数据存储目录等相关路径。

# 进入Hadoop的安装目录

cd /opt/software/hadoop-3.1.4

# 创建Hadoop相关目录

mkdir -p ./hadoopDatas/tempDatas

mkdir -p ./hadoopDatas/namenodeDatas

mkdir -p ./hadoopDatas/datanodeDatas

（3）修改Hadoop配置文件

core-site.xml

<property>

    <name>fs.defaultFS</name>

      <value>hdfs://master:8020</value>

      </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/opt/software/hadoop-3.1.4/hadoopDatas/tempDatas</value>

    </property>

hdfs-site.xml

<property>

    <name>dfs.namenode.name.dir</name>

<value>file:///opt/software/hadoop3.1.4/hadoopDatas/namenodeDatas</value>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///opt/software/hadoop-3.1.4/hadoopDatas/datanodeDatas</value>

</property>

<property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>slave2:9868</value>

</property>

<property>

     <name> dfs.namenode.http-address </name>

     <value> master:9870</value>

</property>

mapred-site.xml

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>master:19888</value>

    </property>

yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

workers

master

slave1

slave2

hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

（4）修改Hadoop安装目录sbin目录下的start-dfs.sh、stop-dfs.sh、start-yarn.sh、stop-yarn.sh脚本。

start-dfs.sh与停止脚本stop-dfs.sh

HDFS_DATANODE_USER=root

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh和停止脚本stop-yarn.sh

YARN_RESOURCEMANAGER_USER=root

YARN_NODEMANAGER_USER=root

（5）将master节点已经配置好的Hadoop安装目录远程传输到slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/hadoop-3.1.4 slave1:/opt/software/

scp -r /opt/software/hadoop-3.1.4 slave2:/opt/software/

（6）在各节点的/etc/profile

# 在master节点通过命令“vi /etc/profile”修改profile文件，文件末尾添加内容

export HADOOP_HOME=/opt/software/hadoop-3.1.4

export PATH=$PATH:$HADOOP_HOME/bin

source /etc/profile# 使配置生效

分发profile文件到子节点

scp /etc/profile slave1:/etc/profile

使子节点环境变量生效

ssh slave1 "source /etc/profile"

（7）在master上进行HDFS格式化，若出现“successfully formatted”提示，则格式化成功。

/opt/software/hadoop-3.1.4/bin/hdfs namenode -format

（8）在master节点执行命令启动Hadoop的HDFS、YARN服务，并查看各节点进程。

cd /opt/software/hadoop-3.1.4/sbin

./start-dfs.sh

./start-yarn.sh

二、spark

（1）在master节点将/opt目录下的spark-3.2.1-bin-hadoop3.2.tgz安装包解压到/opt/software目录下，并将解压后的spark-3.2.1-bin-hadoop3.2文件夹更名为spark-3.2.1。

mkdir -p /opt/software

tar -zxf /opt/spark-3.2.1-bin-hadoop3.2.tgz -C /opt/software

mv /opt/software/spark-3.2.1-bin-hadoop3.2 /opt/software/spark-3.2.1

（2）进入Spark安装目录的conf目录，将workers.template重命名为workers，之后修改workers文件，注释原文件内容并添加slave1和slave2。

cd /opt/software/spark-3.2.1/conf

cp workers.template workers

vi workers

slave1

slave2# 按“i”进入编辑模式后注释原文件内容并添加以下内容

（3）修改spark-defaults.conf配置文件。

spark.master spark://master:7077

spark.eventLog.enabled true

spark.eventLog.dir hdfs://master:8020/spark-logs

spark.history.fs.logDirectory hdfs://master:8020/spark-logs

（4）修改spark-env.sh配置文件。

JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

HADOOP_CONF_DIR=/usr/local/hadoop-3.1.4/etc/hadoop

SPARK_MASTER_IP=master

SPARK_MASTER_WEBUI_PORT=8085

SPARK_MASTER_PORT=7077

SPARK_WORKER_MEMORY=512m

SPARK_WORKER_CORES=1

SPARK_EXECUTOR_MEMORY=512m

SPARK_EXECUTOR_CORES=1

SPARK_WORKER_INSTANCES=1

（5）在master节点上启动Hadoop集群，并在HDFS中新建目录/spark-logs。

$HADOOP_HOME/sbin/start-all.sh

hdfs dfs -mkdir /spark-logs

（6）将master节点配置好的Spark文件远程发送至slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/spark-3.2.1/ slave1:/opt/software/

scp -r /opt/software/spark-3.2.1/ slave2:/opt/software/

（7）在master节点修改/etc/profile文件，设置Spark环境变量SPARK_HOME和PATH的值，并使配置文件立即生效。

# 在master节点通过命令“vi /etc/profile”修改profile文件，文件末尾添加内容

export SPARK_HOME=/opt/software/spark-3.2.1

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

scp /etc/profile slave1:/etc/profile

ssh slave1 "source /etc/profile"

（8）启动Spark集群，使用jps查看各节点的进程，同时在浏览器“http://master:8085”访问Spark的监控界面。

cd /opt/software/spark-3.2.1/sbin

./start-all.sh

jps

ssh slave1 "/usr/java/jdk1.8.0_281-amd64/bin/jps"

三、hive

（1）下载Hive安装包到本地data目录并解压

tar -zxf /data/apache-hive-3.1.2-bin.tar.gz -C /usr/local/

（2）hive-env.sh

export HADOOP_HOME=/usr/local/hadoop-3.1.4 //最后文本最后加

（3）在Hive安装目录的conf目录下新建hive-site.xml配置文件添加参数及对应参数值；同时根据需要补充存储临时数据路径、查询日志存储路径、元数据存储服务URI、查询时使用的执行引擎等其它参数，参数值自行决定。

# 新建hive-site.xml文件并添加参数

vi hive-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <description>元数据库位置</description>

        <name>hive.metastore.warehouse.dir</name>

        <value>hdfs://master:8020/user/hive/warehouse</value>

    </property>

    <property>

        <description>元数据连接字符串</description>
<