Hadoop+hive+flask+echarts大数据可视化项目之系统数据整合和hadoop环境搭建

11 篇文章 1 订阅
8 篇文章 0 订阅

Hadoop+hive+flask+echarts大数据可视化项目(二)

--------------系统数据整合和hadoop环境搭建----------------

       关注Hadoop+Hive+Flask+echarts大数据可视化项目的阅读者,前面已提及系统信息的收集,但收集的系统信息需要整合到一起,如何实现收集的ip地址、cpu使用率,硬盘使用率,内存使用率等参数的综合,需要通过编写linux的shell脚本。

一、shell脚本综合ip地址/内存使用率等信息。

        shell脚本可以将之前获取的ip地址,cpu使用率,内存使用率及硬盘使用率综合到一起。编写shell脚本时,把获取ip地址的命令需要使用撇号括起来,撇号是键盘中制表键上方的“``”号。

       用撇号括起来的命令就会有执行结果的返回,相当于获取了ip地址的结果,将结果存储到变量中,接下来通过echo命令去显示变量的结果,注意,eho显示变量的时候需要在变量名前面加入$符号。如下图所示的显示ip地址的shell脚本。。

       图中第一行把提取ip的命令放在撇号中,然后通过echo去显示这个变量,在变量前加上$符号。

      保存文件后,如果文件名为myrun.sh,在linux的操作提示符下输入sh myrun.sh。最终输出结果如下。

       从图中可以看出,执行shell脚本可以显示ip地址。

       同理,可以把提取mac地址,提取主机名,提取内存参数,提取cpu参数,提取硬盘参数的指令也写入到shell脚本中。

       代码如下图所示。

       图中除最后一行外,其它行分别获取ip地址,存储变量到ip中,获取mac地址,存储变量到mac中,获取hostname主机名,存储变量到hostname中,获取linux操作用户,存储变量到root中,获取cpu的用户使用率,存储变量到cpuuserrate中,获取cpu的系统使用率,存储变量到cpusysrate中,获取cpu的空闲使用率,存储变量到cpuidle中,获取总内存数,存储变量到memtotal中,获取空闲内存数,存储变量到memfree中,获取硬盘的使用率,存储变量到diskrate中。

       代码中最后一行显示所有的变量名,显示的所有变量都加$符号,同时也要注意,每个变量间使用“|”分隔,使用“|”分隔的原因在于“|”在系统参数的分析中不容易出现,这样比较容易实现分割,如果使用空格,计算机名有可能含有空格,不能精确切分出很多参数。

        在linux命令提示符下使用sh myrun.sh执行shell脚本命令如下。

        综合到一起的信息,输出到控制台可以看到具体的输出结果。不过,信息显示到控制台,没有任何的意义,我们最终需要把信息上传到hadoop分布式文件存储平台,之所以是分布式文件存储平台,就决定了其存储形式是文件为基础的,需要把综合起来的系统信息存储到文件中。echo后面可以跟>号把文件存储到文件中。shell脚本命令的修改如下所示。

        在图中最后一行添加了“>/home/data/info.txt”,其目的是将输出结果添加到home中data目录下的info.txt文件中。

       现在继续执行shell脚本时,控制台就没有任何输出。如下图所示。

        此时查看home中data目录下的info.txt文件内容,可以看到输出信息都存储在了info.txt中。

        从信息中看,其数据最终要进行一系列的分析,如硬盘在一段时间内的使用率或者内存在一段时间内的使用率等,这一段时间就是一个时间的概念,在输出的信息中没有提及到时间,一般在处理系统信息或者是日志一类的数据时,必须要提供时间点,因此需要修改shell脚本,在shell脚本中添加时间的内容。Linux是使用date实现时间格式化时,使用date时,可以使用data -help查看帮助来协助解决时间格式化的问题。如下图所示。

        从帮助提示中可以看到,格式化可以使用+号结合%再配合字母提取相关的格式化内容。如把时间格式化成“2022/7/20 9:12:00”的形式,可以使用如下形式。

date “+%Y/%m/%d %H:%M:%S”

        命令使用格式如下图所示。

        现在可以把命令结合到shell脚本中形成一个新的时间变量,然后在输出信息中包含一个输出的时间变量。shell脚本如下图所示。

         这里再执行shell脚本,然后再显示home中data目录下info.txt中的文件内容。显示内容如下图所示。

         有了时间点的系统信息,也就能够对一段时间内的系统信息进行分析。

二、hadoop平台的搭建

        现在搭建hadoop平台环境,使获取的脚本信息文件能够上传到hadoop平台中。

搭建hadoop平台环境,需要提供jdk和hadoop的压缩包,这里使用的是1.8的jdk文件和hadoop2.7.1的hadoop包文件。

        如下图所示,两个软件包的截图。

        这两个软件包如果需要上传到linux系统中,需要使用ftp连接远程linux服务器,一般企业中会通过vftp软件来连接linux服务器。

        如下面的vftp软件图标。

        双击图标后,启动xftp,点击“+”图标可增加连接服务器的相关配置。

        增加ftp连接后,输入连接的用户名和密码。然后选择sftp的连接方式,如下图所示。

        图示中的各项配置结束后,点击“确定”即可完成配置。现在点击对应的连接,连接到远程linux服务器。

        连接到远程服务器后,会首先弹出对话框询问“安全连接”方面的问题。直接点击“接受并保存”。

        点击“接受并保存”后,会自动登陆到linux服务器root用户的文件夹下。

 

        可以将文件上传到特定的目录,这里把两个压缩文件上传到home目录中的soft目录下,home目录中没有soft目录可以新建一个soft目录。

        上传成功后,在linux的usr目录下建立java和hadoop两个目录。

        建立相应的java目录和hadoop目录后,将上传到home目录中soft目录下的两个压缩文件解压到java和hadoop目录中。

        解压文件可以使用tar指令实现,先解压jdk压缩包到usr中的java目录下。

        接下来,再解压hadoop压缩包到usr中的hadoop目录下。

        解压文件后,其它的内容就是进行配置。

        具体配置方法如下。

        首先配置java中jdk的路径,需要配置linux的环境变量,具体文件是etc目录下的profile文件。编辑内容如下。

        在标黄的部分第一句进行了JAVAHOME环境变量的设置,其目的是设置jdk的环境变量,标黄部分的第二句进行HADOOPHOME环境变量的设置,其目的是设置hadoop的环境变量,再把JAVAHOME和HADOOPHOME环境变量的执行路径定入到PATH路径中。

        设置完JAVA和HADOOP的路径后,执行source profile使环境变量生效。如下图所示。

        接下来配置hadoop的环境。

        进入到hadoop的配置目录,其配置目录如下图所示。

        这里需要编辑5个文件。

        第一个文件是hadoop-env.sh文件,具体编辑内容如下。

        这里指定标黄的JAVA_HOME路径,相当于指明jdk的执行位置。

        第二个文件是core-site.xml,配置core-site.xml的内容如下图所示。

        配置文件中通过fs.defaultFS指明hdfs服务器的地址和端口,再通过hadoop.tmp.dir指明hdfs分布式文件系统中数据的存放目录。

        第三个文件是hdfs-site.xml文件,配置hdfs-site.xml的内容如下图所示。

        配置文件中通过dfs.replication指明hdfs服务器的备份数目,因为只有一台机器,所以hdfs服务器的备份数为1。

        第四个文件为mapred-site.xml,此文件在原有的目录下是不存在的,需要通过目录下的mapred-site.xml.template复制获得,命令如下图所示。

        复制后,产生mapred-site.xml文件,配置文件中指明执行mapreduce分布式计算的框架为yarn。如下图所示。

        这里的配置文件中通过编辑configuration,在其中添加property,然后定义name和value的键值,指明了执行mapreduce时框架frame的名称yarn。

        配置的第五个文件是yarn-site.xml文件,其文件的配置内容如下。

        这里的配置信息主要是配置yarn框架的两个角色,nodemanager和resourcemanager,通过yarn.resourcemanager.hostname指明了yarn角色resourcemanager的主机名称,通过yarn.nodemanager.aux-service指明nodenamager工作时用的哪一个service ,这里service的名称是shuffle。

        配置文件配置成功后,需要格式化hadoop分布式存储平台,才能够启动hadoop并上传文件到hadoop平台中。

        格式化hadoop分布式存储平台的命令如下图所示。

        最终输出的信息中如果有下图标黄的“successfully”成功的标志,就可以说明hadoop格式化成功。

        格式化成功后,可以通过hadoop 目录下的sbin目录中的start-all.sh来启动hadoop服务,具体执行情况如下图所示。

         图中显示start-all.sh的启动方法和具体的执行目录位置。

        在hadoop的sbin目录下,linux提示符后面输入./start-all.sh就可以启动hadoop,启动过程中会提示输入密码,输入几次用户的密码后就会启动hadoop。启动hadoop后可以使用jps查询启动的hadoop服务名。如下图所示。

        如图中所示,除了jps的java进程外,还需要hadoop的主控NameNode角色,辅助主控SecondaryNameNode服务,hadoop数据角色DataNode,yarn中的主控ResourceManager和yarn中的服务角色NodeManger,加上一起,hadoop一共有5种服务角色,jps也是一种服务角色,jps显示出来的会有6种服务角色。

        后续就需要把shell产生的脚本数据上传到hadoop分布式存储平台。请继续关注Hadoop+hive+flask+echarts大数据可视化项目。

附:shell合成系统信息的脚本github地址:
https://github.com/wawacode/system_info_bigdata_analyse
  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 搭建大数据环境需要以下步骤: 1. 安装HadoopHadoop是一个分布式计算框架,用于处理大规模数据集。安装Hadoop需要下载Hadoop软件包,并进行配置。 2. 安装HiveHive是一个数据仓库工具,用于在Hadoop上进行数据分析和查询。安装Hive需要下载Hive软件包,并进行配置。 3. 安装Spark:Spark是一个快速的大数据处理框架,用于在Hadoop上进行数据处理和分析。安装Spark需要下载Spark软件包,并进行配置。 4. 安装Zookeeper:Zookeeper是一个分布式协调服务,用于管理Hadoop集群中的节点。安装Zookeeper需要下载Zookeeper软件包,并进行配置。 5. 安装HBase:HBase是一个分布式的NoSQL数据库,用于存储和管理大规模数据。安装HBase需要下载HBase软件包,并进行配置。 以上是搭建大数据环境的基本步骤,需要根据实际情况进行具体的配置和调整。 ### 回答2: 随着互联网技术的不断发展,越来越多的数据被产生和需要处理,因此,搭建大数据环境成为了一项非常重要的工作。目前,HadoopHive、Spark、Zookeeper、Hbase等大数据技术成为了最为重要的技术。下面,我们来详细介绍这些技术的大数据环境搭建。 1. Hadoop的安装 Hadoop是一个开源的分布式文件系统数据处理框架,可以处理大规模数据的存储和处理。Hadoop的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hadoop的二进制包; 3)解压Hadoop的二进制包,并配置环境变量; 4)修改Hadoop的相关配置文件; 5)启动Hadoop。 2. Hive的安装 Hive是一个基于Hadoop数据仓库工具,提供了类似于SQL的查询语言,可以用于大规模数据仓库的创建和查询。Hive的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hive的二进制包; 3)解压Hive的二进制包,并配置环境变量; 4)修改Hive的相关配置文件; 5)启动Hive。 3. Spark的安装 Spark是一个快速而通用的大数据处理引擎,可以执行大规模数据处理任务,并支持分布式计算。Spark的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Spark的二进制包; 3)解压Spark的二进制包,并配置环境变量; 4)修改Spark的相关配置文件; 5)启动Spark。 4. Zookeeper的安装 Zookeeper是一个高性能分布式应用程序协调服务,可以用于协调和同步大规模集群中的应用程序。Zookeeper的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Zookeeper的二进制包; 3)解压Zookeeper的二进制包,并配置环境变量; 4)修改Zookeeper的相关配置文件; 5)启动Zookeeper。 5. Hbase的安装 Hbase是一个基于Hadoop的分布式非关系型数据库,提供了类似于Google的Bigtable的基于列的存储方式。Hbase的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hbase的二进制包; 3)解压Hbase的二进制包,并配置环境变量; 4)修改Hbase的相关配置文件; 5)启动Hbase。 在完成上述大数据技术的安装后,我们还需在使用时将它们进行整合,以达到更加高效的数据处理和管理。这些技术之间的整合一般都需要配置相关的XML文件和环境变量,具体操作可根据实际情况去修改和设置。小编建议,初学者应该多参考一些大佬的经验,互联网上有很多大牛分享了上述技术的搭建方法,读者可以多花些时间去学习和了解。 ### 回答3: 随着现代信息技术的不断发展,大数据的应用越来越广泛。作为目前大数据环境的主流组件,HadoopHive、Spark、Zookeeper和HBase都是大数据领域的重要工具。为了能够更好地进行大数据分析和处理,需要对这些工具进行合理的搭建和配置。 1. Hadoop的搭建 Hadoop是一个分布式存储和计算的框架,搭建Hadoop需要安装JAVA环境,并下载相应的Hadoop压缩包。将Hadoop解压到本地目录,在安装文件中设置JAVA_HOME和HADOOP_HOME环境变量。启动Hadoop需要先启动NameNode和DataNode,然后启动JobTracker和TaskTracker。搭建好Hadoop后,还需要使用HDFS命令行或Hadoop API进行文件的上传、下载、删除等基本操作。 2. Hive的搭建 Hive是一个基于Hadoop数据仓库工具,可以将结构化数据映射到Hadoop的存储系统中。Hive搭建需要先安装JAVA环境和Hadoop,然后下载并解压Hive压缩包。将HiveHadoop的配置文件进行关联,启动Hive服务时需要启动Metastore和HiveServer2服务。搭建完成后,可以使用HiveQL语句进行数据的查询、插入、删除等操作。 3. Spark的搭建 Spark是一个快速通用的大数据计算引擎,可用于数据分析、机器学习等场景。Spark搭建需要安装JAVA和Scala等相关组件,并下载Spark压缩包。将Spark解压到本地目录后,设置SPARK_HOME环境变量以及Hadoop和YARN的配置相关参数。启动Spark服务时需要先启动Master和Slave节点。搭建完成后,可以使用Spark Shell和Spark SQL进行数据处理和分析。 4. Zookeeper的搭建 Zookeeper是一个分布式的协调服务,可以用于管理各类分布式应用程序的配置和信息。将Zookeeper下载并解压到本地目录,设置ZOOKEEPER_HOME环境变量,并修改Zoo.cfg配置文件中的端口号、数据目录等相关参数。启动Zookeeper服务时需要先启动一个Leader和多个Follower。搭建完成后,可以使用ZooKeeper API对Zookeeper的节点进行管理和配置。 5. HBase的搭建 HBase是一个列存储数据库,可以在Hadoop上提供实时读写服务。HBase搭建需要安装JAVA环境、Hadoop和Zookeeper,并下载HBase压缩包。将HBase解压到本地目录,并进行相关配置,比如修改HBase-site.xml配置文件的参数、设置HBASE_HOME环境变量等。启动HBase服务前需要先启动Zookeeper服务。搭建完成后,可以使用Java API或HBase Shell进行数据的读写操作。 综上所述,搭建大数据环境需要先安装基础的JAVA环境和相关组件,然后根据各个工具的安装包进行相应的配置和启动,最后进行测试和调试。在搭建过程中需要注意版本、路径等问题,避免出现配置错误。经过搭建和调试后,可以使用这些工具进行海量数据的分析和处理,为企业的决策提供有力的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值