1、SQL中最近30天数据,最近30天的表达方式
SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 30 DAY) <= date(时间字段名)
2、贝叶斯定理
P(A|B)=P(B|A)P(A)/P(B),是一个条件概率,后验。通过例子来回答。
手机照相功能好,那么他购买手机的概率是多少?已知用户购买的手机的照相功能好的概率是40%,用户购买手机的概率是20%。手机照相功能好的概率是30%。
有三个袋子,一号袋子3红球7黑球,二号袋子8红2黑,三号袋子4红6黑,随机选一个袋子并从中取一个球,如果拿出红球,那么这个球来自三号袋子的概率。答案是4/15
3、如果某一天日活突然下降了,要如何去分析呢?
按照常规数据分析顺序,这个问题属于发现问题然后查找原因并提出解决方案的类型。
我会按照确定目标,搭建数据分析体系和分析指标,获取原始数据,数据清洗,数据分析,总结报告这一顺序进行。
核心步骤:
1-确认数据的真实有效性,就是这个日活下降的数据是真的,跟产品、技术和其他业务人员沟通是否有进行过影响数据的修改。
2-按照多种指标进行拆分:
按时间序列拆分,查看去年1-12月,今年1-至今,数据趋势是否同去年保持一致,查看该下降是否是季节因素引起的;
按不同渠道拆分,查看用户来源渠道,横向对比,找到影响最大的渠道;
按不同版本拆分,app新版本上线时有可能出现bug,以前遇到过新版本上线后,ios用户在不停的打开退出,最后发现是ios新版本打开白屏问题;
按新老用户拆分,看新增用户减少,还是老用户人数降低;
按不同区域拆分;
按手机型号拆分;
3-计算各自的影响系数,(今日-昨日)/(今日总-昨日总)
4-确定问题点,然后跟产品(功能调整,策略调整)、技术(接口,故障,加载)、运营(策略、push、渠道、推广、活动)、政策(pest)等角度去分析原因。
4、ab测试中的辛普森悖论
辛普森悖论指的是即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。
某产品的用户中有10000人使用Android设备、5000人使用iOS设备。
其中IOS设备的转化率仅为4%,而Android设备则是5.5%。
细分到手机和平板两部分,手机部分安卓转化率2.5%,苹果转化率为2.9%;平板安卓转化率为6.3%,苹果转化率为6.7%。
产生的原因是两组数据划分的数量和用户特征并不一致。
解决办法:将流量进行科学地分割,保证试验组和对照组的用户特征一致,且都具有全局代表性。
5、ab测试
中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
α表示原假设为真时, 拒绝原假设的概率。
T检验:首先通过公式计算出统计检验量Z值,公式中的相关组成因素就是:两个版本的各自均值、方差(标准差),以及样本的大小,从而推算出统计量的Z值是多少。
然后通过t分布(大样本情况下近似正态分布)的公式计算得出和Z值对应的P值,阴影部分的面积就是P-value的值。
持续观察和检验p值(multiple testing) ,一旦p值小于α判定标准(即统计显著),就停止试验得出结论。事实上,这样的会导致很高的第一类错误发生率。
置信区间 是用来对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。