1、统计学理论
1.1 大数定量
定义:
指大量重复某一实验时,最后的频率会无限接近于事件的概率
数据的样本量越大,我们预测和计算的概率就越准确
数据的样本量越小,我们预测和计算的概率就越可能失效
举例:
某产品用户还只有几百人,就用一个模型来预测用户的流失。数据量太小导致用上面模型都很难预测准确
样本量不足时,得出的预测结果是无序的,混乱的
解决方法:
- 主客观结合:深入业务,从用户的视角思考问题,广泛收集信息,不仅仅从数据中得出结论
- 想办法提升数据量级:想办法提升公司的业务和数据建设
结论:
对小样本数据得出的结论保持客观的怀疑和观察。并尽可能地在大样本量下进行分析
1.2 罗卡定律
定义:
凡两个物体接触,必会产生转移现象
凡有接触,必留痕迹
之前用于犯罪现场,指犯罪分子一旦来过现场,必会留下痕迹。现在主要用于针对用户行为的埋点和分析
结论:
在分析时,不要忘记尽可能的获取数据、挖掘更多的数据,从蛛丝马迹中找出数据背后的隐藏价值
1.3 幸存者偏差
飞机机翼事件
举例:
总体100万数据&#x