大数据基础(十)Maven构建Hadoop日志清洗项目(二)

本文介绍了如何运用Maven构建一个针对Hadoop日志的清洗项目,详细探讨了定时任务和日期设置的相关步骤,参考了原文链接。
摘要由CSDN通过智能技术生成
Maven Hadoop日志清洗项目(二)


Hadoop 2.7.2 
Hive 2.1.0 
Sqoop 1.4.6




参考:
http://www.cnblogs.com/edisonchou/p/4464349.html


1、将HDFS中清洗好的文件入库hive


为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/user/root/logcleanjob_output即清洗后的数据存放的位置)


文件位置:
root@py-server:/projects/data# hadoop fs -ls /user/root/logcleanjob_output
Found 2 items
-rw-r--r--   2 root supergroup          0 2016-08-13 18:46 /user/root/logcleanjob_output/_SUCCESS
-rw-r--r--   2 root supergroup   50810594 2016-08-13 18:46 /user/root/logcleanjob_output/part-r-00000


hive>create database logtest;


hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/user/root/logcleanjob_output';


验证:
select * from techbbs;
119.127.191.86 20130531235956 forum.php?mod=viewthread&tid=11528&page=60&authorid=53387
157.56.177.164 20130531235957 api.php?mod=js&bid=65
223.240.215.151 20130531235958 source/plugin/pcmgr_url_safeguard/url_api.inc.php
112.64.235.246 20130531235957 home.php?mod=misc&ac=sendmail&rand=1370014195
49.74.113.251 20130531235958 home.php?mod=spacecp&ac=follow&op=checkfeed&rand=1370015996
117.79.176.9 20130531235958 home.php?mod=space&do=notice
Time taken: 0.097 s
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值