logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据

最新推荐文章于 2022-02-17 15:01:09 发布

Shaw_Bigdata

最新推荐文章于 2022-02-17 15:01:09 发布

阅读量3.2k

点赞数

分类专栏：技术学习分享文章标签：大数据 hdfs 博客 hive logstash

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011192458/article/details/74562967

版权

技术学习分享专栏收录该内容

24 篇文章 2 订阅

订阅专栏

初次接触大数据，也是第一次写博客，有点小激动，有什么不对的，请指导一下，麻烦了，谢谢！

环境logstash 2.4 hadoop2.6 hive 1.2.1

需求：需要时时监听日志的数据,并且对日志的历史数据和以后数据,也就是所有日志所产生的时间进行划分,划分为：年月日分目录，并且能在hive中进行年月日分区，从而可以通过hive分区进行快速查询,提高hive查询效率

步骤1： logstash 接入数据。数据伪造,通过java以tcp方式发送数据到logstash 的conf文件 (正在使用flume接入hdfs)

数据样式为：2017-7-6 1,testData,01

input{
tcp{

#端口号
port => 5656
}
}

filter{

grok{

#传输的message数据解析

match => ["message","(?<YYYY>\d{4})-(?<MM>\d{1,2})-(?<DD>\d{1,2})(?<newMessage>.*)"]
}

mutate{

#更新message为自己自定义的字段

update => {"message" => "%{newMessage}"}
}
}
output{

webhdfs {

#服务器

host => "192.1.1.151"

#hdfs端口号

port => 50070

#对照前面的自定义字段取日志里面的时间进行分目录,其中y= m= d= 这些分别对应hive表分区字段,后面会讲到

path => "/chao/hdfs/test/hiveRoot/y=%{YYYY}/m=%{MM}/d=%{DD}/luffy.text"

#hive用户

user => "lee"

}

stdout{

#打印样式

codec => rubydebug
}

}

步骤2：查看接入hdfs数据

[tina@master HDFS]$ hadoop fs -ls /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6
Found 1 items
-rw-r--r-- 1 lee supergroup 49 2017-07-06 15:35 /chao/hdfs/test/hiveRoot/y=2017/m=7/d=6/luffy.text

这样子hdfs里面就会有一个文件夹为hiveRoot的目录下面,同时有y=2017以及m=7,d=6的子目录

步骤3:创建hive表关联hdfs数据

create external table luffy_root(id int,name string,num int)

//此处的y,m,d为luffy_root表指定的分区的字段,需要一一对应上面文件夹的y,m,d值
partitioned by (y string,m string,d string)

//分隔符‘,’

row format delimited fields terminated by ','

stored as textfile

//这里是指定根目录。

location '/chao/hdfs/test/hiveRoot/';

步骤3：此处创建hive表之后是无法通过select * from luffy_root;查到数据的,得到的结果是空

所以需要通过分区关联分区数据才能查询:如

alter table test add partition (y=2017,m=7,d=6)；

这样就可以查询到hdfs下面存储的数据

也可以满足需求通过年月日去查询数据，可以避免进行mapReduce查询

select * from luffy_root where y = 2017 and m =7 and d =6;

优点：能够通过hdfs存储数据,并且根据年月日进行分区,形成分层以及分日去查询,提高查询数据效率

缺点：每一次创建hive表的时候,需要对分区跟分区数据管理一次,每一天的数据都需要关联,这样365天的话就相当麻烦,我们现在暂时使用一个脚本跑分区关联分区数据，脚本仅需跑一次。如果有更好的方法还请大神指出。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Shaw_Bigdata 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。