用户浏览日志行为分析
用户在浏览网页过程中,在t1时刻,用户点进了p1页面,过一段时间后,用户又点进了p2页面,如此反复。
要求:统计用户在每个特定网页的停留时间
或是某个网页用户停留的总时间
步骤:
1、准备用户浏览日志数据 (user_log.txt: userid,log_time,log_url)
,并放置在一个目录下

2、在hive中创建存储用户浏览数据的数据表


3、将数据文件加载到hive表中 (注意:此处加载的/home/hduser/hive-data/user_log.txt路径是上面你放的路径,要一致)
4、获取用户在某个页面停留的起始与结束时间
5、计算用户在页面停留的时间间隔 (提示: unix_timestamp(string date, string pattern):将指定时间字符串格式字符串转换成Unix时间戳(以秒为单位),如果格式不对返回0。如:unix_timestamp(‘2009-03-20’, ‘yyyy-MM-dd’) = 1237532400,返回类型是bigint)
6、计算每个页面被浏览的总时长ÿ