初次接触大数据,也是第一次写博客,有点小激动,有什么不对的,请指导一下,麻烦了,谢谢!
环境logstash 2.4 hadoop2.6 hive 1.2.1
需求:需要时时监听日志的数据,并且对日志的历史数据和以后数据,也就是所有日志所产生的时间进行划分,划分为:年月日分目录,并且能在hive中进行年月日分区,从而可以通过hive分区进行快速查询,提高hive查询效率
步骤1: logstash 接入数据。数据伪造,通过java以tcp方式发送数据到logstash 的conf文件 (正在使用flume接入hdfs)
数据样式为:2017-7-6 1,testData,01
input{
tcp{
#端口号
port => 5656
}
}
grok{
#传输的message数据解析
match => ["message","(?<YYYY>\d{4})-(?<MM>\d{1,2})-(?<DD>\d{1,2})(?<newMessage>.*)"]}
mutate{
#更新message为自己自定义的字段
update => {"message" => "%{newMessage}"}}
}
output{
webhdfs {
#服务器
host => "192.1.1.151"#hdfs端口号
port => 50070
#对照前面的自定义字段取日志里面的时间进行分目录,其中y= m= d= 这些分别对应hive表分区字段,后面会讲到
path => "/chao/hdfs/test/hiveRoot/y=%{YYYY}/m=%{MM}/d=%{DD}/luffy.text"#hive用户
user => "lee"
}stdout{
#打印样式
codec => rubydebug}
}
步骤2:查看接入hdfs数据
[tina@master HDFS]$ hadoop fs -ls /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6
Found 1 items
-rw-r--r-- 1 lee supergroup 49 2017-07-06 15:35 /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6/luffy.text
这样子hdfs里面就会有一个文件夹为hiveRoot的目录下面,同时有y=2017以及m=7,d=6的子目录
步骤3:创建hive表关联hdfs数据
create external table luffy_root(id int,name string,num int)
//此处的y,m,d为luffy_root表指定的分区的字段,需要一一对应上面文件夹的y,m,d值
partitioned by (y string,m string,d string)
//分隔符‘,’
row format delimited fields terminated by ','
stored as textfile
//这里是指定根目录。
location '/chao/hdfs/test/hiveRoot/';
步骤3:此处创建hive表之后是无法通过select * from luffy_root;查到数据的,得到的结果是空
所以需要通过分区关联分区数据才能查询:如
alter table test add partition (y=2017,m=7,d=6);
这样就可以查询到hdfs下面存储的数据
也可以满足需求通过年月日去查询数据,可以避免进行mapReduce查询
select * from luffy_root where y = 2017 and m =7 and d =6;
优点:能够通过hdfs存储数据,并且根据年月日进行分区,形成分层以及分日去查询,提高查询数据效率
缺点:每一次创建hive表的时候,需要对分区跟分区数据管理一次,每一天的数据都需要关联,这样365天的话就相当麻烦,我们现在暂时使用一个脚本跑分区关联分区数据,脚本仅需跑一次。如果有更好的方法还请大神指出。