困扰着我的用户激活次数分析,让人很是头疼。在此就谈谈自己的今天一天的收获和感受吧。
数据可信度。从用户那边获取过来的数据占用户实际操作的比例是多大,用户的激活次数和用户的窗口打开次数理论上是一致的,可实际得到的数据确相差甚远。我就开始怀疑收集这些的数据是否具有可靠性,r如果一开始收集得到的数据可信度就低,那么以后分析得到的结果含金量将会很小,甚至会导致上级领导的决策失误。但是听了坤哥一番话之后,我明白了不少。在数据分析过程中,数据的丢失是必然的,是不可抗拒的力量导致的,但是这些不可抗拒的力量有这样的分布上的一致性,就是说数据丢失在整个过程都发生了,是随机发生的,并不是某一特定的时刻发生的。就像随机抽样一样,并且呢它比随机抽样更趋于合理性,如果这个前提是你没有必要去算丢失数据某属性的情况的话,它在它的分析的维上,它的数据是有效的。比如用户的激活次数,它的使用天数是和激活次数一起发送过来的,就算丢失一部分数据,它的有效性还是存在的。
数据该如何清理,通过得出曲线图很难去判定哪些数据是离群点。首日的用户很怪,出现一次之后就不在出现了的用户数占很大比例。按理论上来说,这些不合理的离群点数据占总数的比例应该是不大,可是在这里却占了很大的比例。如果清理掉它,计算的基数就减少了,有效比例将减低,说服力就减弱了。如果不清理它,那么这部分数据得出的结论又非常不合理。最后呢,还是决定清理掉它,把两端的数据做了清理。
要分析什么样的数据才有意义。分析用户的激活次数来为了什么,你做这件事情的目的是什么?我想一个呢,是分析WPS的使用情况,用户每天的激活和使用时间怎么样的。通过这些呢,也可以确定用户的质量。确定用户的质量的这个标准是比较难定的。
明天的任务是分析周用户的使用情况。