静静网站流量分析项目之离线处理_数据清洗_4

本文介绍了如何使用Hive进行离线数据清洗,重点是处理HDFS上的网站流量数据。清洗目标是保留特定字段,如url、urlname等,并通过创建外部表和分区表来管理数据。清洗流程包括创建库、定义外部表、数据导入与清洗,最终在Hive中以表格形式展示清洗后的数据。
摘要由CSDN通过智能技术生成

在这一片我们将介绍如何将HDFS上的数据进行清洗得到自己想要的数据。在HDFS上我们得到的如下的信息

"http://localhost/FluxAppServer/a.jsp|a.jsp|A页面|UTF-8|341x256|24-bit|zh-cn|0|1||0.5514263453546305|http://localhost/FluxAppServer/b.jsp|Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0|57039716907014431020|0298644254_32_1560325951992|127.0.0.1";


1.清洗目标

可以看到在HDFS上存储的数据有许多不是我们需要的字段,那么我们只要保留需要的字段即可
在会话字段有三块包含:会话编号, 会话页面数,会话时间;在一起用起来不方便,需要用下划线进行提取,所以把它进行分离,方便以后使用。
根据以上分析,我们可以发现最后保留以下字段:url urlname  ref uagent uvid ssid sscoutn sstime cip

2.技术选择</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值