Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现

最新推荐文章于 2023-05-11 20:21:29 发布

play_big_knife

最新推荐文章于 2023-05-11 20:21:29 发布

分类专栏： Python开发大数据监控文章标签： hadoop 大数据 hive 可视化 Python项目

33 篇文章 15 订阅

Hadoop+hive+flask+echarts大数据可视化项目（三）

--------------上传系统信息数据到hadoop平台及hadoop上传指令的底层实现----------------

第一步：启动虚拟机
第二步：上传文件info.txt
第三步：删除文件info.txt
第四步：继续上传文件info.txt
第五步：删除文件info.txt
第六步：追加式上传文件info.txt
第七步：追加式上传文件info.txt
第八步：put -f强制上传文件info.txt

博客中代码github地址：
https://github.com/wawacode/system_info_bigdata_analyse

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现

使用linux定时任务采集系统数据信息，上传到hadoop平台，使用hive进行系统数据的分析，分析的结果以flask接口传送到前端，前端以echarts图表展示。此博文主要针到系统信息数据如何上传到hadoop中去保存。...
复制链接

扫一扫

Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现

Hadoop+hive+flask+echarts大数据可视化项目（三）

--------------上传系统信息数据到hadoop平台及hadoop上传指令的底层实现----------------

关注过Hadoop+hive+flask+echarts大数据可视化项目的读者，这里是第三部分。前面的部分完成了系统数据信息的收集以及Hadoop环境的搭建。现在需要把系统数据信息上传到hadoop分布式存储平台中。

一、系统数据信息上传hadoop分布式存储平台

其一是linux系统本身产生以时间为节点的一条一条信息存储到本地节点，然后上传到hadoop平台。

其二是linux系统本身产生以时间为节点的一条信息存储到本地节点，然后累加式的一条一条上传到hadoop平台。

关于这两条思路，都存在着在一段时间内收集系统的信息，也就是一段时间内要进行脚本的执行，脚本的执行不能告人为地执行，也需要系统自动执行。这就需要linux提供的定时任务crontab。

在linux系统的etc目录下，有crontab文件，文件中指明了定时任务crontab的相关参数。如下图所示。

crontab定时任务指令可以通过crontab -e编辑当前用户下的定时任务。如下图所示。

输入crontab -e后会出现编辑窗口，将定时任务的相关参数编辑到参数中，如每分钟执行其中的脚本指令。就可以将crontab参数中的第一个参数置1，执行脚本可以执行/home/data下的myrun.sh脚本，编辑内容如下图所示。

编辑脚本后，保存退出。此时每个以分钟为单位的间隔内就会运行myrun.sh脚本。这里比较关心的是每个为分钟为单位的间隔内info.txt中的内容。通过cat显示info.txt中的内容显示如下。

如图中所示，添加了前缀的ifconfig就可以进行脚本中ifconfig指令。这样的输出内容中可以包括ip地址的信息，可以通过cat显示info.txt的内容，具体指令如下图。

从图中显示可以看出，ip地址和mac地址已经显示出来的，所不同的是还是没有显示出cpu的用户使用率，系统使用率相关的信息。这就需要再次查看/var/spool/mail文件夹中的root信息。

通过图中获知，“TERM”环境变量的值为xterm-256color，这里还需要在shell脚本中加入“TERM”环境变量的值。继续编辑shell脚本内容如下。

添加“TERM”环境变量的值之后，继续查看info.txt中的内容。看一下是否显示cpu的用户使用率及系统使用率等信息。如下图所示。

从图中可以看出，还是没有显示出cpu的用户使用率、系统使用率及内存的相关信息，继续通过tail查看/var/spool/mail目录中的root文件来查看具体原因。如下图所示。

上图所示top指令中加入-b批处理模式后，再次使用cat查看产生的info.txt中的文件内容。如下图所示。

从图中的信息可以看到，此时cpu的用户使用率，cpu的系统使用率，及内存总数，内存的空闲数都被取出并写入到文件中。

根据前面分析的两个思路。

（1）将文件累加式地写入到本地，然后再上传到hadoop中。

如果需要把linux定时任务产生的信息累加式写入到本地文件，需要将输出的“>”号改成“>>”号，两个大于号的结合相当于在原有的本地文件上实现追加。具体内容修改如下。

从图中可知，在shell脚本中把“>”号改成了“>>”号，这样产生的输出info.txt文件就会出现内容的叠加。可以通过cat查询info.txt文件内容来证实最终结果。如下图所示。

如图所示，会在每隔1分钟的时间点，产生不同的数据记录。

然后在shell脚本的最后添加hadoop fs -put的指令，实现文件的上传。Shell脚本编辑内容如下图。

通过linux的定时器，每隔1分路就会进行脚本的执行，然后通过hadoop fs -ls来查看上传到hadoop平台中的info.txt文件是否存在。如下图所示。

从图中的输出结果中可以看出，又显示出了“您在/var/spool/mail/root中有新邮件”，从此信息判断shell脚本中可能还存在错误，继续tail指令查看/var/spool/mail目录下的root文件后面几行，查看产生错误的具体原因。如下图所示。

通过图中的输出可以得到hadoop的输出路径，把hadoop的执行路径添加到shell脚本中，这样shell脚本在执行的时候就会找到hadoop的执行文件，如下图所示。

添加执行路径后，再次通过定时器执行shell脚本后，就会把本地的info.txt上传到hadoop平台中。通过hadoop fs -ls查看hadoop平台中的info.txt文件是否存要在如下图所示。

通过显示hadoop平台中info.txt的内容可以看出存储在hadoop平台的info.txt文件也是时间点叠加的系统信息采集，如下图所示。

再看第二种思路。

（2）本地文件中只有一个时刻的系统数据采集，远程hadoop服务器中存储叠加时刻的系统数据采集。

在本地文件中只产生一个时刻的系统数据采集，因此在本地的info.txt文件中只存有一行数据。这样，就需要把原来修改脚本的“>>”号修改成“>”号。如下图所示。

保存退出后，在本地的info.txt中每一个时刻只产生一行系统信息数据，可以用cat显示info.txt 的具体内容。

现在需要在远程的hadoop服务器中产生一个info.txt文件，这个info.txt文件实现不同时刻采集的系统信息的叠加。但是需要注意hadoop上传同名文件时，nanenode管理者会检查文件是否重名，如果重名，就会报错，如下图所示。

如上图所示，出现的报错信息“put ‘/info.txt’：File exists”表明文件已经存在，文件既然存在，hadoop默认是不能上传该文件的，这里可以用-f参数强行上传该文件，后面会分析-f文件上传的底层实现。如下图所示。

使用命令后，在hadoop的分布式文件存储系统下info.txt文件会出现叠加的数据效果，如下图所示。

如上图所示，在info.txt中出现了两行叠加的不同采集时刻的数据。现在，可以修改shell脚本，实现上传hadoop时把数据追加到info.txt，而在本地只产生一行数据。Shell脚本修改如下图所示。

这样保存脚本后，在本地只会产生一行数据的info.txt，在远程hadoop服务器中会产生时间叠加的info.txt系统信息记录。可以通过hadoop fs -cat显示远程info.txt的内容如下图所示。

二、hadoop中Put和appendToFile的文件底层实现

这里通过下面的操作步骤去分析put和appendToFile的底层实现

第一步：启动虚拟机，这一步比较简单，略过不说。

第二步：上传文件info.txt，命令如下图所示。

第三步：删除文件info.txt，命令如下图所示。

第四步：继续上传文件info.txt，命令如下图所示。

第五步：继续删除文件info.txt，命令如下图所示。

第六步：使用appendToFile上传文件，命令如下图所示。

第七步：继续使用appendToFile上传文件，命令如图所示。

第八步：使用hadoop fs -put上传文件时携带参数-f强制覆盖同名文件。命令如图所示。

八步操作结束后，重启虚拟机，使namenode中的edits文件和fsimage文件进行合并，合并后通过关闭的edits文件查看hadoop对上述操作的底层具体实现。

重启虚拟机后，启动hadoop服务。

上图中导出edits文件没有报任何错误，直接进入到指定的输出目录，这里是home的soft 目录下的data目录中，有一个导出的myedits.xml文件。

现在可以使用vi编辑工具查看myedits.xml的文件内容。具体操作如下图所示。

进入vi编辑器后，可以查看到myedits.xml的内容。

回顾前面的八步操作。

第一步上传info.txt文件，其对应了下面的hadoop底层操作。

（1）OP_ADD操作

ADD操作的目的是先在HDFS上创建一个同名文件.COPYING，可以通过OP_ADD中的PATH看到这样的信息，如下图所示。

上图中标黄的部分产生一个info.txt的_COPYING复本文件。

（2）OPALLOCATEBLOCK_ID

ADD操作之后就是ALLOCATEBLOCKID实现分配BLOCK_ID的操作，也就是块id的分配操作。注意下图中分配的块ID是什么样的数字。

上图中标黄的块ID为1073741827，这步为后续删除此文件产生新的块ID提供一个伏比，也就是后期会跟后面的块ID进行比较。

（3）OPSETGENSTAMP_V2

此步分配时间戳，由此判断文件产生的时间。

（4）OPADDBLOCK

图中标黄的部分PATH指明文件还是一个COPYING，后面的BLOCKID表示块ID，NUMBYTES表示从块的哪个位置开始写数据。

（5）OP_CLOSE

此步为关闭文件，关闭文件是文件名称还是info.txt的复本文件。

此信息可以从下图中的PATH获取。

（6）OPRENAMEOLD

此步重命名文件。会将前一步关闭的COPYING文件更名为正式的info.txt文件。也就是最终PUT到hadoop平台中的文件。

综合各个元操作步骤，hadoop上传文件需要先产生复本文件，再分配块信息，产生时间戳，接下来才是真正的写数据到复本文件，关闭文件。最后要把复本文件更名为正式的上传文件。

第二步执行了删除操作。

Hadoop删除文件操作的底层就只有一步元操作OP_DELETE，没有其它的附加元操作内容。

第三步再次PUT一个同名info.txt文件，这里关注的是第二步，也就是OPALLOCATEBLOCK_ID，在这一步中分配的块ID与前面的块ID是否一致，如下图所示。

第四步删除操作，没什么可说的，只有一步元操作OP_DELETE。

第五步采用appendToFile上传文件info.txt，其对应了下面的hadoop底层操作。

（1）OP_ADD

也是添加一个文件的操作，不过这里添加的是info.txt，与PUT添加的info.txt的复本文件是不同的。如下图所示的PATH标明了添加的info.txt文件。

接下来是第二步元操作。