搜狗搜索日志分析系统500w数据(一、数据预处理(Linux))

本文介绍在Linux环境下对搜狗搜索日志数据进行预处理的过程,包括查看数据、数据扩展(拆分时间字段)、数据过滤(去除UID或关键词为空的行)以及数据加载到Hadoop HDFS上的步骤。在处理过程中,遇到了Hadoop相关的问题并提供了解决方案链接。
摘要由CSDN通过智能技术生成

环境:
maxos上parallel虚拟机安装的centos7
hadoop2.6.0

一、数据预处理(Linux环境)

搜狗数据的数据格式:
访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL

其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户 ID。

1.查看数据
进入实验数据文件夹

[hadoop@localhost ~]$ cd /home/hadoop/resources/sogou-data/500w

less查看

[hadoop@localhost 500w]$ less sogou.500w.utf8

在这里插入图片描述
(注:进入less查看后,按e可以查看下一条数据,按q退出。)

查看总行数:

[hadoop@localhost 500w]$ wc -l sogou.500w.utf8

在这里插入图片描述
2.数据扩展
将时间字段拆分并拼接,添加年、月、日、小时字段

[hadoop@localhost resour
  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值