双十一大数据分析
文章平均质量分 94
Stories Untold.
这个作者很懒,什么都没留下…
展开
-
利用Spark预测回头客实验报告
test.csv和train.csv,文件中的字段定义如下:user_id | 买家idage_range | 买家年龄分段:1表示年龄=50,0和NULL则表示未知gender | 性别:0表示女性,1表示男性,2和NULL表示未知merchant_id | 商家idlabel | 是否是回头客,0值表示不是回头客,1值表示回头客,-1值表示该...原创 2022-07-08 14:18:30 · 1462 阅读 · 5 评论 -
将数据从Hive导入到MySQL实验报告
用户行为日志user_log.csv,日志中的字段定义如下:(1)在hive中创建临时表inner_user_log ,字段包括上面11个字段,使用逗号进行分隔符(2)在hive中将user_log表中数据插入到临时表中(3)查询hive中user_log中倒数二十行的数据(4)在mysql中创建dbtaobao11的数据库作为存放库(5)查看mysql数据库的编码格式除了filesystem其他均为utf8(6)在mysql的dbtaobao11数据库中创建表user_log,设置编码为utf8,使用反引原创 2022-07-08 14:17:24 · 3005 阅读 · 0 评论 -
Hive数据分析实验报告
用户行为日志user_log.csv,日志中的字段定义如下:(1)查看user_log表数据结构(2)查看user_log表简单数据结构(3)查看日志前10个交易日志的商品品牌(4)查询前20个交易日志中购买商品时的时间和商品的种类(5)用聚合函数count()计算出表内有多少条行数据(6)在函数内部加上distinct,查出user_id不重复的数据有多少条(7)排除顾客刷单(查询不重复的数据)(8)查询双11当天有多少人购买了商品(9)品牌2661,当天购买此品牌商品的数量(10)查询多少用户当天点击了原创 2022-07-08 14:15:25 · 6206 阅读 · 11 评论