logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据

初次接触大数据,也是第一次写博客,有点小激动,有什么不对的,请指导一下,麻烦了,谢谢!

环境logstash 2.4   hadoop2.6 hive 1.2.1


需求:需要时时监听日志的数据,并且对日志的历史数据和以后数据,也就是所有日志所产生的时间进行划分,划分为:年月日分目录,并且能在hive中进行年月日分区,从而可以通过hive分区进行快速查询,提高hive查询效率


步骤1: logstash 接入数据。数据伪造,通过java以tcp方式发送数据到logstash 的conf文件 (正在使用flume接入hdfs)

数据样式为:2017-7-6 1,testData,01

input{
        tcp{

#端口号
                port => 5656
        }
}

filter{

        grok{

#传输的message数据解析

                match => ["message","(?<YYYY>\d{4})-(?<MM>\d{1,2})-(?<DD>\d{1,2})(?<newMessage>.*)"]
        }

        mutate{

#更新message为自己自定义的字段

                update => {"message" => "%{newMessage}"}
        }
}
output{

        webhdfs {

#服务器

                host => "192.1.1.151"

                #hdfs端口号

port => 50070

#对照前面的自定义字段取日志里面的时间进行分目录,其中y= m= d= 这些分别对应hive表分区字段,后面会讲到

                path => "/chao/hdfs/test/hiveRoot/y=%{YYYY}/m=%{MM}/d=%{DD}/luffy.text"

                #hive用户

user => "lee"

        }

        stdout{

#打印样式

                codec => rubydebug
        }

}

步骤2:查看接入hdfs数据

[tina@master HDFS]$ hadoop fs -ls /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6
Found 1 items
-rw-r--r--   1 lee supergroup         49 2017-07-06 15:35 /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6/luffy.text

这样子hdfs里面就会有一个文件夹为hiveRoot的目录下面,同时有y=2017以及m=7,d=6的子目录


步骤3:创建hive表关联hdfs数据

create external table luffy_root(id int,name string,num int)


//此处的y,m,d为luffy_root表指定的分区的字段,需要一一对应上面文件夹的y,m,d值
partitioned by (y string,m string,d string)   


//分隔符‘,’

row format delimited fields terminated by ','

stored as textfile

//这里是指定根目录。

location '/chao/hdfs/test/hiveRoot/';


步骤3:此处创建hive表之后是无法通过select * from luffy_root;查到数据的,得到的结果是空

所以需要通过分区关联分区数据才能查询:如

alter table test add partition (y=2017,m=7,d=6);

这样就可以查询到hdfs下面存储的数据

也可以满足需求通过年月日去查询数据,可以避免进行mapReduce查询

select * from luffy_root where y = 2017 and  m =7 and d =6;


优点:能够通过hdfs存储数据,并且根据年月日进行分区,形成分层以及分日去查询,提高查询数据效率

缺点:每一次创建hive表的时候,需要对分区跟分区数据管理一次,每一天的数据都需要关联,这样365天的话就相当麻烦,我们现在暂时使用一个脚本跑分区关联分区数据,脚本仅需跑一次。如果有更好的方法还请大神指出。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Shaw_Bigdata

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值