![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据项目
zhongyuankai
done
展开
-
用户上网行为分析-大数据项目
[实验数据]本实验所用数据为某宽带运营商从2014年11月11日0时到1时的用户上网点击流数据,包含了31,487,488条记录。数据集已经存放在HDFS上,路径为“/data/13/4/dpi/dpi.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata_cases.dpi”。各字段的定义为:字段 定义srcip 用户所在客户端IPad 用户上网设备号ts...原创 2019-05-20 10:08:35 · 6885 阅读 · 1 评论 -
电影评分分析-大数据项目
[实验数据]本实验所用数据为美国在线影片提供商NetFlix从1998年10月到2005年12月的电影评分数据,包含了480,189用户对17,770多部影片的100,480,507条评分。该数据包含了2个数据集。影片评分数据集已经存放在HDFS上,路径为“/data/13/5/rating/rating.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata_...原创 2019-05-20 10:09:17 · 7362 阅读 · 2 评论 -
车辆GPS位置信息分析-大数据项目
[实验数据]本实验所用数据为江苏省南京市出租车从2010年9月1日到2日的GPS位置数据,包含了7,726辆出租车的共33,042,225条位置记录。数据集已经存放在HDFS上,路径为“/data/13/1/gps/gps.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata_cases.gps”。各字段的定义为:字段 定义VehicleId 出租车标识符Ti...原创 2019-05-20 10:04:29 · 6611 阅读 · 3 评论 -
超市零售数据分析-大数据项目
[实验数据]本实验所用数据为国内某超市从2012年8月1日到2013年8月1日共一年的交易数据,包含了812,847条交易、2,893,385件单个商品以及20,154名顾客。该数据包含了3个数据集。交易概况数据集已经存放在HDFS上,路径为“/data/13/2/sales_head/sales_head.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata...原创 2019-05-20 10:06:37 · 7877 阅读 · 6 评论 -
微博消息分析-大数据项目
[实验数据]本实验所用数据为新浪微博数据,包含了从2013年6月1日到14日期间的12,102,744条微博。数据集已经存放在HDFS上,路径为“/data/13/3/post/post.csv”,各字段以制表符分隔。数据集还存放在了Hive上,表名为“bigdata_cases.post”。各字段的定义为:字段 定义PostId 微博标识符UserId 用户标识符UtcTime 微博...原创 2019-05-20 10:07:20 · 2369 阅读 · 0 评论