《数据分析实战》–用R做交叉列表
本文参考的是《数据分析实战》第四章。
背景:针对某公司的产品,发现当月的用户使用量减少了很多,但是和上月相比,本月的商业宣传和月度活动并无大的变化,需查明用户数量减少的原因。
现状:同上月相比用户数减少。
预期:恢复到与上月相同的用户数。
明确问题:根据用户的不同属性来发现某个用户群出现问题。
读取数据
dau <- read.csv('section4-dau.csv',header = T,stringsAsFactors = F)
user_info <- read.csv('section4-user_info.csv',header = T,stringsAsFactors = F)
其中,dau数据如下:
> head(dau)
log_date app_name user_id
1 2013-08-01 game-01 33754
2 2013-08-01 game-01 28598
3 2013-08-01 game-01 30306
4 2013-08-01 game-01 117
5 2013-08-01 game-01 6605
6 2013-08-01 game-01 346
user_info数据如下:
> head(user_info)
install_date app_name user_id gender generation device_type
1 2013-04-15 game-01 1 M 40 iOS
2 2013-04-15 game-01 2 M 10 Android
3 2013-04-15 game-01 3 F 40 iOS
4 2013-04-15 game-01 4