非常荣幸参加了Datawhale暑期夏令营活动,我是双非软件工程大三的学生,选修过python、数据挖掘的课程,姑且是一个知道些皮毛的小白。
赛题背景:用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。
赛事任务:基于提供的样本构建模型,预测用户的新增情况。
(其实就是对一个数据表进行读取、处理,根据数据的特性、数据与数据之间的关系来制定一个模型表示用户新增的情况。)
任务一:跑baseline
视频中提到作为小白学习时,不需要从头开始学python、算法等基础知识,直接以项目为主(以这个baseline为主),学习步骤如下:
P1.完整地读一遍代码 ;
P2.再逐条过一轮注释,遇到不会的搜资料,了解语句的作用;
P3.再敲一遍代码
P4.边敲代码边理解代码行的运行效果。
(小本本记好学习方法!)
思考:对于“用户新增”,可以从用户的状态来判别,新用户OR老用户,可以用10来表示。根据表列名和数据值的类型,可以从登录-注册时间来判断新老用户。
疑惑:跑baseline时没有出现问题,但运行的结果,提交三次,得到了三个数值。我用的线上跑数据的方式,后两次换了极速浏览器,其结果都低于WINDOWS自带浏览器运行的结果,猜测是浏览器抓取、处理数据有差别。