数据分析感想

       困扰着我的用户激活次数分析,让人很是头疼。在此就谈谈自己的今天一天的收获和感受吧。

      数据可信度。从用户那边获取过来的数据占用户实际操作的比例是多大,用户的激活次数和用户的窗口打开次数理论上是一致的,可实际得到的数据确相差甚远。我就开始怀疑收集这些的数据是否具有可靠性,r如果一开始收集得到的数据可信度就低,那么以后分析得到的结果含金量将会很小,甚至会导致上级领导的决策失误。但是听了坤哥一番话之后,我明白了不少。在数据分析过程中,数据的丢失是必然的,是不可抗拒的力量导致的,但是这些不可抗拒的力量有这样的分布上的一致性,就是说数据丢失在整个过程都发生了,是随机发生的,并不是某一特定的时刻发生的。就像随机抽样一样,并且呢它比随机抽样更趋于合理性,如果这个前提是你没有必要去算丢失数据某属性的情况的话,它在它的分析的维上,它的数据是有效的。比如用户的激活次数,它的使用天数是和激活次数一起发送过来的,就算丢失一部分数据,它的有效性还是存在的。

       数据该如何清理,通过得出曲线图很难去判定哪些数据是离群点。首日的用户很怪,出现一次之后就不在出现了的用户数占很大比例。按理论上来说,这些不合理的离群点数据占总数的比例应该是不大,可是在这里却占了很大的比例。如果清理掉它,计算的基数就减少了,有效比例将减低,说服力就减弱了。如果不清理它,那么这部分数据得出的结论又非常不合理。最后呢,还是决定清理掉它,把两端的数据做了清理。

       要分析什么样的数据才有意义。分析用户的激活次数来为了什么,你做这件事情的目的是什么?我想一个呢,是分析WPS的使用情况,用户每天的激活和使用时间怎么样的。通过这些呢,也可以确定用户的质量。确定用户的质量的这个标准是比较难定的。

       明天的任务是分析周用户的使用情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值