weixin_43287568-CSDN博客

原创 4个参数搞定ABTEST样本量的最优选择

理论上样本量越大，越能反应实际情况，减少误差。但实际工作场景中，样本量同样不能过大，有两点原因流量不足：小公司线上流量较小，产品开发过程中需要多个实验测试，并且每个实验的样本尽量不重叠，如果拿出来大部分做实验，会拖慢开发进度；试错有成本：如果某个实验选择了50%的样本，而这个实验组的转化率降低了非常多，对收入有风险，试错成本高。结论：尽量选择最小可靠性样本。怎样计算需要多少样本可直接使用网上计算器：样本量计算器需要输入4个参数：Statistical power：统计功效，实验中最想得到的结

2021-05-02 22:18:24 2627

原创假设检验的逻辑是什么

https://www.zhihu.com/question/20254932/answer/459073864

2021-05-02 11:12:48 407

原创 SQL--淘宝用户行为分析

https://zhuanlan.zhihu.com/p/365763173

2021-05-01 20:53:32 196

原创 sql 中jion用法

一、连接查询分类：1.交叉连接（不常用）:返回被连接的两个表所有数据行的笛卡尔积；返回到结果集合中的数据行数等于第一个表中符合查询条件的数据行数乘以第二个表中符合查询条件的数据行数。2.内连接：inner join 或 join3.外连接左外连接：left join 或 left outer join右外连接：right join 或 right outer join完全外连接：full join 或 full outer join二、连接查询实例：数据库中有两张表，一张人员（T_P

2021-04-24 10:35:47 434

原创指标异常判断。同DAU 下降留存率下降分析。见后续

怎么确定是异常波动？经验波动范围是怎么确定的？经验怎么找到指标下降原因？如何证实是这个原因识别和确认异常既然是数据异常分析,那么我们必须能察觉到这些异常,然后还要确认数据异常是真的存在,否则只会在错误的道路上越走越远。察觉数据异常最难也最简单,最难是因为察觉的过程往往依靠丰富的经验和对产品和业务的充分了解,我们称之为产品经理的数据敏感。最简单是因为我们一旦有了这种敏感性,只要借助基本的数据报表,就能够风吹草动无微不察。数据敏感不是一个“硬”技能,也很难说有具体的操作步骤去提高数据敏感性,这种敏感一部

2021-04-24 09:58:44 704

原创异常值识别和处理

1.识别异常值1.1业务法根据你对业务的理解，然后对每一个指标设定一个合理的范围，一旦超过这个范围，则认为是异常值。比如收入，一般来说都是正数，如果出现小于0，则认为是异常值；再比如年龄，正常的年龄可能在100以内，如果出现年龄是好几百的，那么也认为是异常值。1.23σ原则3σ原则中的σ是代表标准差，3σ也就是标准差，如果数据与均值之间的绝对距离大于3倍标准差，即下图中[-∞,μ-3σ]和[μ+3σ,+∞]部分，我们把这一部分值称为是异常值。在用3σ原则时，数据要尽可能的服从正态分布，因为只有满

2021-04-24 09:39:46 1560

原创为什么很多都模型假设变量服从正态分布，尤其是回归模型？

1.正态分布的奇妙之处就在于它是自然分布，任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布，不受人为影响。eg：打靶，你每次射中点离中心的距离就是误差+方差，如果你每次射中点离中心点都离好远，那你就得提高自身的水平，即距离中心点的宽度（也就是方差），但你就算对自己的水平无限提高，你还是不能每次都射中中心点，这就是所谓的误差，所以如果你想射中点偏离中心点较小，就只能提高方差，也就是改变正态分布的方差，但是误差是呈现正态分2.正态分布的信息熵最大，是最没有规则的分布，所以大自然嗜好这种分

2021-02-03 12:44:02 5042 2

原创常见的概率分布函数

1

2021-02-03 04:40:54 776

原创概率密度函数和分布函数

1 先从离散型随机变量和连续性随机变量说起对于如何分辨离散型随机变量和连续性随机变量，在贾俊平老师的《统计学》教材中，给出了这样的区分：如果随机变量的值都可以逐个列举出来，则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。进一步解释，离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如，企业个数，职工人数，设备台数等，只能按计量单位数计数，这种变量的数值一般用计数方法取得。反之，在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，

2021-02-03 03:51:09 1931

原创数据挖掘十大经典算法之—-决策树

一.决策树的构建决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略：这里有信息增益，增益比，基尼系数这3种。所以说信息增益，增益比，基尼系数决定着决策树的划分。选择信息增益最大的属性，作为根节点，依次递归排列。二.熵和信息熵通常使用“熵”来度量样本集合的纯度，“熵”就是物体内部的混乱程度，理论上“熵”的值越小，数据集的“纯度”越高，下面是“熵”的计算公式：在这里插入图片描述Pk指的是第k类样本所占的比率。信息熵：指的是测试属性对于样本纯度的增益效果，值越大越好，计算公式为：信息增益

2021-01-17 21:29:43 475 2

weixin_43287568的博客