Hive学习之路(五):使用自义定函数UDF完成日志数据统计

最新推荐文章于 2022-11-22 16:40:58 发布

萧邦主

最新推荐文章于 2022-11-22 16:40:58 发布

阅读量1.1k

点赞数

分类专栏： Hadoop生态大数据生态文章标签：大数据 hive hive自定义函数 hive完成日志数据统计

本文链接：https://blog.csdn.net/qq_41955099/article/details/89340121

版权

内容简介

一、Hive自定义函数UDF简介

上一节中，介绍了许多Hive的内置函数，并使用Hive的内置函数实现了WordCount，Hive的内置函数确实为编程带来了极大的便捷，但是，如果遇到过于复杂的业务时，Hive的内置函数会显得乏力，再者，在ETL处理中，一个处理过程可能包含多个处理步骤，而每个步骤都涉及到较为复杂的数据处理，如果用户无法自定义函数处理，则会大大增加业务的复杂程度。因此，Hive提供了用户自定义函数UDF，是一个允许用户扩展HiveSQL的强大的功能，用户可以自己编写一个函数，并将其加入到用户会话中，它就会像Hive的内置函数一样使用。

二、数据准备

1.分析日志数据

27.19.74.143 - - [29/April/2016:17:38:20 +0800] “GET /static/image/common/faq.gif HTTP/1.1” 200 1127
110.52.250.126 - - [29/April/2016:17:38:20 +0800] “GET /data/cache/style_1_widthauto.css?y7a HTTP/1.1” 200 1292
27.19.74.143 - - [29/April/2016:17:38:20 +0800] “GET /static/image/common/hot_1.gif HTTP/1.1” 200 680

以上是apache服务器部分的日志信息，也是本次演示所用到的数据，一共七个字段，分别表示：“host”,“identity”,“user”,“time”,“request”,
“status”,“size”。

2.需求

现在需要对这批原始数据做一次过滤，要求对于size大于1000的访问日志，取出IP，格式化时间，以及访问url。比如 27.19.74.143 - - [29/April/2016:17:38:20 +0800] “GET /static/image/common/faq.gif HTTP/1.1” 200 1127 size = 1127大于1000符合要求，输出结果：27.19.74.143 2016-04-29 /static/image/common/faq.gif

3.创建原始数据表并导入数据

进入hive shell,执行命令：create table logtable(log string),创建原始数据表，log字段代表一条日志。先将下面日志文件laog.txt的内容上传至HDFS，然后执行命令：load data inpath '/data/log.txt' into table logtable，将日志数据导入表中。
laog.txt：

27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 1127
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /data/cache/style_1_widthauto.css?y7a HTTP/1.1" 200 1292
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/hot_1.gif HTTP/1.1" 200 680
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/hot_2.gif HTTP/1.1" 200 682
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/filetype/common.gif HTTP/1.1" 200 90
110.52.250.126 -

最低0.47元/天解锁文章

萧邦主

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive学习之路(五):使用自义定函数UDF完成日志数据统计

内容简介一、Hive自定义函数UDF简介二、数据准备1.分析日志数据2.需求3.创建原始数据表并导入数据三、使用自义定函数完成日志数据统计1.创建Java工程，添加Maven支持2.创建类LogParser并编写代码3.将代码打包并提交4.执行程序查看结果四、总结一、Hive自定义函数UDF简介上一节中，介绍了许多Hive的内置函数，并使用Hive的内置函数实现了WordCount，Hive的...
复制链接

扫一扫