Hadoop系统应用之HDFS相关操作---Shell定时采集数据到HDFS

文章详细描述了如何配置环境变量,创建并编辑脚本`upload2HDFS.sh`以上传日志文件到HDFS,包括设置Java和Hadoop的环境变量,定义日志目录,移动和重命名文件,以及通过Hadoop命令进行文件上传的过程。
摘要由CSDN通过智能技术生成

目录

一、配置环境变量

1.首先在/export/data/目录下创建logs目录,指令如下:

2.在logs文件下编辑脚本文件upload2HDFS 

         3.创建存放与上传目录

         4.创建日志文件

         5. 执行脚本

6.获得结果如下:(在UI界面中查看HDFS集群状态)


一、配置环境变量

1.首先在/export/data/目录下创建logs目录,指令如下:

cd /export/data/
mkdir  logs
cd logs

2.在logs文件下编辑脚本文件upload2HDFS 

vi upload2HDFS.sh

在文件中添加以下

  • 内容配置java和Hadoop的环境 【根据自己配置的路径】
  • 日志文件上传的目录
  • 待上传文件存放的目录
  • 设置日期
  • 日志上传到hdfs的根路径
  • 打印环境变量信息
  • 读取日志文件的目录,判断是否有需要上传的文件
  • 实现文件上传
  • 将文件移动到待上传目录并重命名
  • 将待上传的文件path写入一个列表文件willDoing
  • 找到列表文件willDoing
  • 打印信息
#!/bin/bash


#配置java环境变量
export JAVA_HOME=/usr/java/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

#配置Hadoop环境变量
export HADOOP_HOME=/export/servers/Hadoop-2.7.3
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH


#日志文件存放的目录
log_src_dir=/export/data/logs/log/

#待上传文件存放的目录
log_toupload_dir=/export/data/logs/toupload/

#设置日期
date1=`date -d last-day +%Y_%m_%d`

#日志上传到hdfs的根路径
hdfs_root_dir=/data/clickLog/$date1/

#打印环境变量信息
echo "envs: hadoop_home: $HADOOP_HOME"

#读取日志文件的目录,判断是否有需要上传的文件
echo "log_src_dir:"$log_src_dir
#实现文件上传
ls $log_src_dir | while read fileName
do
if [[ "$fileName" == access.log.* ]]; then
date=`date +%Y_%m_%d_%H_%M_%S`
#将文件移动到待上传目录并重命名
echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"
mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date
#将待上传的文件path写入一个列表文件willDoing
echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >>$log_toupload_dir"willDoing."$date
fi
done
#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
    #打印信息
    echo "toupload is in file:"$line
    #将待上传文件列表willDoing改名为willDoing_COPY_
    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
    #读列表文件willDoing_COPY_的内容(一个一个的待上传文件名)
    #此处的line 就是列表中的一个待上传文件的path
    cat $log_toupload_dir$line"_COPY_" |while read line
    do
        #打印信息
        echo "puting...$line to hdfs path.....$hdfs_root_dir"
        hadoop fs -mkdir -p $hdfs_root_dir
        hadoop fs -put $line $hdfs_root_dir
    done
mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done

3.创建存放与上传目录

创建日志文件存放的目录与待上传文件存放的目录,命令如下:

mkdir -p /export/data/logs/log/

mkdir -p /export/data/logs/toupload/

、、

4.创建日志文件

1.用vi编辑器创建日志文件access.log

cd log/
vi access.log

2.编辑日志文件

hello world
hello hdfs

If you have a dream, go after it. If you dont die, dont stop.

3.使用如下指令在当前路径修改日志格式,生成四个格式正确的日志

cp access.log access.log.1
cp access.log access.log.2
cp access.log access.log.3
cp access.log access.log.4

 

5. 执行脚本

cd ..
sh upload2HDFS.sh

6.获得结果如下:(在UI界面中查看HDFS集群状态)

 

 

 查看获取的文件

 

 

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

-牧心-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值