![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 58
quick刀斩乱麻
follow for more
展开
-
谈谈谈数据治理
Garbage In, Garbage Out.六大维度:原创 2022-06-06 19:07:18 · 128 阅读 · 0 评论 -
AB实验的基本概念
下面以产品改版为例,则:H0:改动有用 H1:改动没用Significance level of a test (α):原假设为真时, 却拒绝原假设(Type I Error / 改动实际没用,但错误地认为它有用)的概率Power of a test(1−β):原假设为假时,却接受原假设(Type II Error / 改动实际有用,但错误地认为它没用)的概率...原创 2021-03-24 11:31:21 · 524 阅读 · 0 评论 -
AB实验的最小样本量(功效分析)
最小样本量(功效分析)样本大小、显著性水平、功效、效应值,给定任意三个量,可以推算出第四个量:效应值的计算:依赖于假设检验中使用的统计方法,如两样本均值之差除以标准差(如下),或两样本均值之差除以合并标准差,或卡方检验计算样本量z检验样本量公式 为两样本均值之差; AB实验原假设(即两样本同质)下:(即标准差,); 例:假设我们要通过实验分析新的产品UI对于用户时长的影响,现在要设计实验来验证假设,根据过去的经验我们知道用户时长的标准差是100,并认定希望实验...原创 2020-09-03 16:22:31 · 3894 阅读 · 0 评论 -
AB实验的Variance Reduction
BriefAttempt to understand the inherent uncertainty introduced by individual experimental units. Estimate the pre-experimentindividual variance for each unit. For examle, if the target metric is "time spent by someone on the site per day", we could es.转载 2020-11-20 14:58:38 · 289 阅读 · 0 评论 -
AB实验的置信区间 (confidence interval)
: sample mean: sample standard deviation: sample size: confidence level value(Z-table)置信区间描述了实验组比对照组在x%的置信水平上的提升范围。例如:当实验组在实验报告的数据变化中显示[a,b],说明实验组上线到全量用户后有x%的几率呈现a-b的变化Notes看见统计...原创 2020-11-26 13:59:14 · 4357 阅读 · 0 评论 -
评价方法-秩和比
秩和比的精髓不在前半部分的根据秩次为评价对象排序,而在于后半部分的正态离差分档。做综合评价时,可以利用TOPSIS等更加细腻的方法为评价对象排序,再与秩和比法结合进行分档。CodeReferenceRSR(秩和比综合评价法)介绍及python3实现...原创 2021-03-25 11:50:27 · 3388 阅读 · 0 评论 -
PCA与Autoencoder
拉格朗日乘数法一般情况下,最优化问题会碰到三种情况:一是无约束条件,这是最简单的情况,解决方法通常是函数对变量求导,令求导函数等于0的点可能是极值点。将结果带回原函数进行验证即可;二是等式约束条件,解决方法是消元法(即通过等式约束条件消去一个变量,得到其他变量关于该变量的表达式代入目标函数,转化为无约束的极值求解问题)或拉格朗日乘数法;三是不等式约束条件,常用的方法是KKT条件(拉格朗日乘数法的一种泛化)。引入拉格朗日乘数,构造拉格朗日函数; 令偏微分为零,解方程组,得到可能极值点; 根据实际问原创 2021-02-19 12:06:56 · 503 阅读 · 0 评论 -
行业研究学习笔记
行研框架投资视角1)细分行业概览 市场当前规模和历史演进,以及进一步细分拆解(如有) 市场规模增长预测:销量变化和ASP趋势;对应背后驱动因素 市场结构和竞争格局:垄断、寡头垄断、充分竞争等情况分析;未来市场份额演化情况 细分行业的盈利情况:毛利、EBITDA利润率、净利润率、ROIC/ROA、ROE等 2)行业壁垒和护城河分析 品牌效应 IP专利和专有技术(know-how) 特许经营权 转换成本 成本优势(流程原创 2021-02-10 12:20:27 · 119 阅读 · 0 评论 -
基尼辛普森指数衡量多样性
Simpson indexThe measure equals the probability that two entities taken at random from the dataset (with replacement) represent the same type, whereis the total number of types in the dataset.Gini–Simpson indexThe transformationequals the pr...原创 2021-02-07 10:43:46 · 3113 阅读 · 0 评论 -
KL散度
Reference信息熵, 相对熵与交叉熵原创 2021-02-06 18:45:06 · 165 阅读 · 0 评论 -
关联分析
项与项集:项是指分析数据中的一个对象(物品);项集是若干项构成的集合;支持度:某(些)项集在数据集中出现的概率(包含物品甲的记录数量/总的记录数量),体现某物品当前的流行程度;置信度:关联规则{甲->乙}的置信度是指项集A发生,则项集B发生的概率(包含物品甲和乙的记录数量/ 包含甲的记录数量),体现关联规则的可靠程度(A发生时,B有大概率也会发生);提升度:指项集A发生的条件下,同时项集B发生的概率,与项集B发生的概率之比,即关联规则{甲->乙}的置信度/乙的支持度,体现应用关联..原创 2021-01-16 22:45:15 · 281 阅读 · 0 评论 -
归因分析
简单归因偏移量:不考虑因子在指标中的占比,只关注因子的数量变化,从而突出因子对指标数量增减的直接贡献波动率/波动率占比算法归因超均规则归因原创 2020-11-09 11:38:58 · 1341 阅读 · 0 评论 -
心理学概念
普惠的互联网前景理论:确定效应:处于收益状态时,多数人是风险厌恶者; 反射效应:处于损失状态时,多数人是风险喜好者; 损失规避:多数人对损失比对收益敏感; 参照依赖:多数人得失的判断往往由参照点决定。...原创 2020-10-26 10:26:40 · 117 阅读 · 0 评论 -
商业化
1,信息流广告平台方收入:income =ecpm * PV * 展示率 * 填充率ecpm: cpc:目标点击出价(cpm) * ctr ocpm: 目标转化出价 * ctr * cvr 接入更多预算,提升竞价队列密度以提升BID;优化广告位/用户路径/算法,或增强定向能力以提升CTR(2%-3%) 展示率: 策略:隔6出1,隔8出1等(关注留存等用户厌恶指标) 技术:网络情况或用户提前退出导致广告未展示/ 前端不支持后台配置的广告类型 其他:广告在底部,用户...原创 2020-10-26 10:19:34 · 114 阅读 · 0 评论 -
评价方法-层次分析法确定指标权重
reference层次分析法原理及python实现原创 2020-10-22 10:45:41 · 3550 阅读 · 0 评论 -
评价方法-熵权法确定指标权重
信息熵: 信息熵 =每种可能事件的概率 * 每种可能事件的信息量 (本质是对信息量的期望) 发生的概率越小,(确定它所需要的)信息量越大(利用对数函数拟合) 熵权法:原理:指标的离散程度越小,(确定它所需要的)信息量越小,信息熵越大;指标的离散程度越小,该指标对综合评价的影响(即权重)就越小步骤:数据标准化 求出各指标下的概率(每个元素占概率的比重) 计算各指标的信息熵 计算各指标的权重(1-H:差异系数/信息效用值) (延伸:计算此指标体系...原创 2020-10-16 11:38:07 · 6024 阅读 · 0 评论