项目背景
本项目通过某线上教育平台的数据,对用户行为进行分析,为平台制定综合的线上课程推荐策略。
分析目标
分析平台用户的活跃情况,计算用户的流失率
分析线上课程的受欢迎程度,构建课程智能推荐模型,为教育平台的线上推荐服务提供策略。
数据预处理
数据构成分析
教育平台线上课程数据包含三张表(users、login、study_information)
users结构:

login结构:

study_information结构:

数据清洗
重复值
使用Excel数据工具-删除重复值,对三张表分别进行处理,只有users表中存在3条重复记录,其余表中存在的是一个用户对应多条记录的情况,因此不存在重复记录。
缺失值
使用Excel筛选功能分别对三张表进行筛选:
users表中user_id存在、recently_logged、school字段中存在缺失值,user_id字段未知,也无法按照默认进行填充,因此将user_id字段缺失行删除;recently_logged字段中存在‘--’,但占比不超过20%,因此将recently_logged字段缺失行删除,school字段在本项目的分析中不起作用,因此将school字段中空白项填充为'N'。
login表中无明显缺失值。
study_information表中price字段存在缺失,经分析为课程51、课程96的价格缺失,属于整体价格缺失,无替代方法,因此采用直接删除的方法处理缺失值。
分析平台用户的活跃情况,计算用户的流失率
分析结论
活跃用户的占比是不到一半的,其中北京和上海的活跃用户是前15中最少的。
流失用户的比例高达60%,即用户流失率为60.66%。
流失用户的流失天数存在三个峰值,分别在15天、75 天、45天达到极高值点。
用户活跃时间主要集中在上午9-11点、下午14-16点、晚上19-21点。
建议
一线城市中北京和上海的活跃用户较少,针对此现象,可以对用户进行精细化分类,定位流失率较高的客户群,分析高流失率的原因。
可根据用户的活跃时间段,在活跃时间段里加大课程的宣传推广力度,以此促进课程的销售数量。



