Hadoop+hive+flask+echarts大数据可视化项目之系统数据整合和hadoop环境搭建

最新推荐文章于 2024-07-04 15:49:44 发布

play_big_knife

最新推荐文章于 2024-07-04 15:49:44 发布

分类专栏： Python开发大数据监控文章标签： hadoop 大数据 hive 可视化 Python开发

33 篇文章 15 订阅

Hadoop+hive+flask+echarts大数据可视化项目（二）

--------------系统数据整合和hadoop环境搭建----------------

date “+%Y/%m/%d %H:%M:%S”

附：shell合成系统信息的脚本github地址：
https://github.com/wawacode/system_info_bigdata_analyse

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Hadoop+hive+flask+echarts大数据可视化项目之系统数据整合和hadoop环境搭建

收集系统数据上传hadoop平台,使用hive导入hadoop平台中的系统数据,HQL语句实现hive的系统数据分析，最后通过flask接口把分析结果传回前端,前端采用echarts进行大数据的可视化图形分析。本讲针对于将所有系统收集的数据采用shell脚本的方式整合，并协同搭建hadoop分布式存储平台。...
复制链接

扫一扫

Hadoop+hive+flask+echarts大数据可视化项目之系统数据整合和hadoop环境搭建

Hadoop+hive+flask+echarts大数据可视化项目（二）

--------------系统数据整合和hadoop环境搭建----------------

关注Hadoop+Hive+Flask+echarts大数据可视化项目的阅读者，前面已提及系统信息的收集，但收集的系统信息需要整合到一起，如何实现收集的ip地址、cpu使用率，硬盘使用率，内存使用率等参数的综合，需要通过编写linux的shell脚本。

一、shell脚本综合ip地址/内存使用率等信息。

shell脚本可以将之前获取的ip地址，cpu使用率，内存使用率及硬盘使用率综合到一起。编写shell脚本时，把获取ip地址的命令需要使用撇号括起来，撇号是键盘中制表键上方的“``”号。

图中第一行把提取ip的命令放在撇号中，然后通过echo去显示这个变量，在变量前加上$符号。

保存文件后，如果文件名为myrun.sh，在linux的操作提示符下输入sh myrun.sh。最终输出结果如下。

从图中可以看出，执行shell脚本可以显示ip地址。

同理，可以把提取mac地址，提取主机名，提取内存参数，提取cpu参数，提取硬盘参数的指令也写入到shell脚本中。

代码如下图所示。

在linux命令提示符下使用sh myrun.sh执行shell脚本命令如下。

在图中最后一行添加了“>/home/data/info.txt”，其目的是将输出结果添加到home中data目录下的info.txt文件中。

现在继续执行shell脚本时，控制台就没有任何输出。如下图所示。

此时查看home中data目录下的info.txt文件内容，可以看到输出信息都存储在了info.txt中。

从帮助提示中可以看到，格式化可以使用+号结合%再配合字母提取相关的格式化内容。如把时间格式化成“2022/7/20 9:12:00”的形式，可以使用如下形式。

命令使用格式如下图所示。

现在可以把命令结合到shell脚本中形成一个新的时间变量，然后在输出信息中包含一个输出的时间变量。shell脚本如下图所示。

这里再执行shell脚本，然后再显示home中data目录下info.txt中的文件内容。显示内容如下图所示。

有了时间点的系统信息，也就能够对一段时间内的系统信息进行分析。

二、hadoop平台的搭建

现在搭建hadoop平台环境，使获取的脚本信息文件能够上传到hadoop平台中。

搭建hadoop平台环境，需要提供jdk和hadoop的压缩包，这里使用的是1.8的jdk文件和hadoop2.7.1的hadoop包文件。

如下图所示，两个软件包的截图。

这两个软件包如果需要上传到linux系统中，需要使用ftp连接远程linux服务器，一般企业中会通过vftp软件来连接linux服务器。

如下面的vftp软件图标。

双击图标后，启动xftp，点击“+”图标可增加连接服务器的相关配置。

增加ftp连接后，输入连接的用户名和密码。然后选择sftp的连接方式，如下图所示。

图示中的各项配置结束后，点击“确定”即可完成配置。现在点击对应的连接，连接到远程linux服务器。

连接到远程服务器后，会首先弹出对话框询问“安全连接”方面的问题。直接点击“接受并保存”。

点击“接受并保存”后，会自动登陆到linux服务器root用户的文件夹下。

可以将文件上传到特定的目录，这里把两个压缩文件上传到home目录中的soft目录下，home目录中没有soft目录可以新建一个soft目录。

上传成功后，在linux的usr目录下建立java和hadoop两个目录。

建立相应的java目录和hadoop目录后，将上传到home目录中soft目录下的两个压缩文件解压到java和hadoop目录中。

解压文件可以使用tar指令实现，先解压jdk压缩包到usr中的java目录下。

接下来，再解压hadoop压缩包到usr中的hadoop目录下。

解压文件后，其它的内容就是进行配置。

具体配置方法如下。

首先配置java中jdk的路径，需要配置linux的环境变量，具体文件是etc目录下的profile文件。编辑内容如下。

在标黄的部分第一句进行了JAVAHOME环境变量的设置，其目的是设置jdk的环境变量，标黄部分的第二句进行HADOOPHOME环境变量的设置，其目的是设置hadoop的环境变量，再把JAVAHOME和HADOOPHOME环境变量的执行路径定入到PATH路径中。

设置完JAVA和HADOOP的路径后，执行source profile使环境变量生效。如下图所示。

接下来配置hadoop的环境。

进入到hadoop的配置目录，其配置目录如下图所示。

这里需要编辑5个文件。

第一个文件是hadoop-env.sh文件，具体编辑内容如下。

这里指定标黄的JAVA_HOME路径，相当于指明jdk的执行位置。

第二个文件是core-site.xml，配置core-site.xml的内容如下图所示。

配置文件中通过fs.defaultFS指明hdfs服务器的地址和端口，再通过hadoop.tmp.dir指明hdfs分布式文件系统中数据的存放目录。

第三个文件是hdfs-site.xml文件，配置hdfs-site.xml的内容如下图所示。

配置文件中通过dfs.replication指明hdfs服务器的备份数目，因为只有一台机器，所以hdfs服务器的备份数为1。

第四个文件为mapred-site.xml，此文件在原有的目录下是不存在的，需要通过目录下的mapred-site.xml.template复制获得，命令如下图所示。

复制后，产生mapred-site.xml文件，配置文件中指明执行mapreduce分布式计算的框架为yarn。如下图所示。

这里的配置文件中通过编辑configuration，在其中添加property，然后定义name和value的键值，指明了执行mapreduce时框架frame的名称yarn。

配置的第五个文件是yarn-site.xml文件，其文件的配置内容如下。

配置文件配置成功后，需要格式化hadoop分布式存储平台，才能够启动hadoop并上传文件到hadoop平台中。

格式化hadoop分布式存储平台的命令如下图所示。

最终输出的信息中如果有下图标黄的“successfully”成功的标志，就可以说明hadoop格式化成功。

格式化成功后，可以通过hadoop 目录下的sbin目录中的start-all.sh来启动hadoop服务，具体执行情况如下图所示。

图中显示start-all.sh的启动方法和具体的执行目录位置。

在hadoop的sbin目录下，linux提示符后面输入./start-all.sh就可以启动hadoop,启动过程中会提示输入密码，输入几次用户的密码后就会启动hadoop。启动hadoop后可以使用jps查询启动的hadoop服务名。如下图所示。

后续就需要把shell产生的脚本数据上传到hadoop分布式存储平台。请继续关注Hadoop+hive+flask+echarts大数据可视化项目。