macmurphy-CSDN博客

原创关于数据分析的思考(三)

某个指标下降或者上涨n%，你该如何分析1、确定指标口径例如活跃，是日活还是月活？是有效活跃还是正常活跃？每个问题都有自己的背景，确定口径是首先要做的2、确定指标准确性确定口径后，要确定数据的准确性。1）、直接排查该指标，思路一般采用二分法思路，例如展示层、ods层、中间汇总层、中间明细层，提高排查效率。2）、通过间接的指标排查，例如看该指标相关的衍生指标（分子or分母的指标），可以间接判断数据准确性。这种方法，一般要求你必须对衍生指标的有一定敏感度，知道在什么区间内是个合理值。3、分维度进行定

2020-05-13 21:38:35 365

原创关于数据分析的思考(二)

数据需求的处理面对数据需求，5w2h方法开始why：为什么提需求？对方是用来干什么的？为什么要这些字段？who：谁提出来的数据需求？是否有中间人？最根本是谁来用这个数据？what：具体提了什么需求？字段定义都有哪些？when：数据需求deadline？数据需求的周期是多久？where：业务处于什么阶段提的需求？how：数据需求要怎么处理？现有的报表是否可能满足？是否可以后期将这些临时...

2020-04-19 23:25:13 360

原创关于DAU、LTV、ROI的测算

DAU预估预估方法主要是用群组分析cohort方法进行预估测算，其中有两个核心指标是新增量和留存率的测算。新增量的测算：C端用CAC和新客费用，比如100W能够买量100W个用户，其中CAC获客成本在市场中是固定的，也是可以直接得到具体数值的。B端用人效和人数，比如做增量的销售有100个，每个人每月能签约10个客户，那么本月新增量等于100*10=1000个客户。留存率的测算：留存率为新增量m个在第n天的留存率Rn是多少，那我们需要通过历史数据(散点图)拟合得出留存率曲线函数，函数一般用幂函数或

2020-06-02 14:59:39 6948

原创关于数据分析的思考(四)

业务团队和数据团队的分析，有什么异同？相同：目的相同，都是想做业务的深层次分析，数据化驱动及运营。不同：业务团队偏业务具体动作对业务指标的解释及对应策略打法输出；数据团队偏业务大盘的影响分析以及业务方向的建议输出。浅谈LTV的测算LTV用户周期价值，LTV60即用户60天的生命价值，一般在实战中，都取得是平均客户的LTV，即取得是平均值。LTV其实是等于周期内留存率*周期内Arpu拟合留存率的模型，一般采用指数函数、幂函数进行拟合；Arpu模型，一般采用多项式进行拟合。在测算投入产出比

2020-05-24 11:32:34 228

原创如何做需求管理

参考居士文章做好需求管理文档目的、背景、需求deadline、需求字段(此处是个大坑，掌握主动权很重要，一定要给业务做选择题，而非填空题，不然业务提个复杂难度字段，逻辑不清晰，计算还复杂，会浪费很多精力)、数据周期、部分字段口径备注……主要的就是这几个方面重要度：业务线阶段性战略目标+部门定位、年度目标、月度目标、日度目标+个人职业发展目标，此处用加法紧急程度：deadline，这个deadline，一定是自己判断后的，而非需求人要求的。如何判断呢，一看需求是否为真实需求，二是需求人的目的及价值，

2020-05-18 11:24:47 190

原创关于数据仓库搭建的理解

总结下自己最近的理解，还是要经常看木东居士的文章，结合自己之前做的思考整体的框架，不断调整。数据仓库框架

2020-05-16 18:14:03 293

原创机器学习第九周打卡：主成分分析

用途：在实际业务情况中，因为存在多种变量间都存在相关性，复杂性上升，为了降低复杂度，单纯的减少指标数量，有可能导致模型损失相关信息，那有没有一种方法，可以在多种变量基础上，将N个指标，转化成为M个指标，既保证数据不缺失，模型更准确，指标数量又有所降低。主成分的思想：就是将N维指标体系下数据，映射到K维指标体系下，并且保证到K维指标体系下，间距最大(原因是，拥有更高的区分度，更能保存原有数据的特征...

2020-04-25 23:46:01 121

原创机器学习第八周打卡：决策树

决策树的本质：本质是从训练数据中，总结出一套分类规则，也可以理解为训练处一套条件概率模型。本质上的思路，是和逻辑回归不一样的。决策树建立的过程是：1、特征选择2、决策树的生成3、决策树的剪纸在特征选择上，核心思想就是，选择一个最好的维度，确定最好的阈值。两个最好要如何确定，是个重要问题。如何选择呢？在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征(...

2020-04-18 18:11:15 173

原创关于数据分析的思考

搭建及优化数据监控体系先说搭建，主要会围绕两个方面不断扩展：1、业务模式的收入，如业绩收入，这个是业务从始至终不变的指标。2、阶段性的战略指向，如普遍公司的业务模式都是前期看增量扩展市场，后期看留存看召回看活跃。这部分会因为公司的发展不断调整，业绩的考核政策也会阶段性变化。其中，也会因为业务模式的不确定，会有各种业务模式的尝试，寻找最优的业务模式进行大范围推广。根据以上的认识，数据监控体系...

2020-04-15 00:05:27 201

原创说一说我认识的ABtest

原理A/B-test是为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同（相似）的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好版本正式采用。如何设计AorB版本？遵循同层互斥的原理，要保证AB版本的样本，是同一层级的不同群体。如何选择AorB？是依靠统计学中的假设检验理论进行AB项实验结果的选择。假设检验：我要证明某个结论...

2020-04-14 10:48:07 598

原创相关sql题汇总

计算cohort留存方法非连续活跃为分子select total.first_day,COUNT(distinct total.user_id),count(distinct (case when total.gap=0 then total.user_id else null end )),count(distinct (case when total.gap=1 then total....

2020-04-13 20:04:31 103

原创机器学习第七周打卡：逻辑回归

逻辑回归用处：用回归方法解决分类的问题。通过搭建模型后，计算发生某事件的概率，然后用阶梯函数判断成离散型变量。逻辑回归函数本质理解：首先，要将真实数值，与做完回归的预测进行一一对应，所以选取sigmoid函数作为关联，转化为0-1之间的数值，因为这是连续值，但是阶跃函数不连续所以无法选择。损失函数：...

2020-04-11 17:49:44 182

原创机器学习第五周打卡：梯度下降

梯度下降是用来什么的？寻找到最优的损失函数。方法：进行导数，随机变量寻找最优的损失函数（损失最小的函数）。其中会采用两种方法：sklearn中的用法：https://sklearn.apachecn.org/docs/0.21.3/6.html...

2020-03-28 20:52:54 108

原创机器学习第四周打卡：线性回归算法

简单线性回归y=ax+b其中a、b的算法依次是这个如何评价回归方程的拟合度呢？实战案例：import pymysql # 导入模块import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_split #这里...

2020-03-22 21:40:58 191

原创机器学习第三周打卡：归一化+KD树+特征预处理

归一化因为在进行计算距离的时候，会存在量纲的问题，所以要对数据进行归一化的处理，保证计算距离的时候不会因为量纲问题，导致距离结果出非常大的偏差。有两种方法，一种是最值归一化(x-u)/(max(x)-min(x)），将数据落在0-1区间内，但是这种方法非常容易受到极值的影响，导致可能分布不均匀。另一种算法是均值方差归一化(x-u)/s，我的理解是与均值的偏差值落在方差的区域，适用于有极值的情况...

2020-03-15 19:56:33 181 1

原创机器学习第二周打卡：分类评价+线性回归+拆分训练集和测试集方法

分类评价结果我们使用分类算法将训练集进行分类后，我们怎么判定分类算法的好坏，就需要用到相关指标。混淆矩阵使用条件：对于极度偏斜的数据，是不能使用混淆矩阵的。比如99.9%的人都会患癌症等。其中，精准率=TP/(FP+TP)，即预测值里面，准确的数据占比是多少。召回率=TP/(FN+TP)，即真实值里面，准确被预测的数据占比是多少。那接下来的问题，两个指标中，在某个模型中，达到什么样...

2020-03-08 20:35:44 1177

原创统计学第十七周打卡：时间序列分析与预测实践

首先看下销量曲线情况

2020-03-08 16:31:34 185

原创机器学习第一周打卡：knn算法学习

用途：用来做分类或者做逻辑回归用模型是由三个核心元素构成：1、距离度量2、K值3、分类决策规则整体算法流程：1、计算测试集到训练集的各个数据点的距离，这里就可以用很多距离进行考核2、对距离进行排序3、选择K值，这个K值，是指距离测试集最近的训练集要选多少个4、看选择K值后的几个训练值频次是怎么样的，然后把测试集的结果=频次最高的那个结果就完事儿了其实挺简单，可以理解为：找距离我...

2020-02-29 16:58:39 125

原创统计学第十六周打卡：时间序列分析与预测

趋势分类平稳趋势：就是一条直线长期趋势：持续增长或者持续下降的趋势季节变动：一年内重复出现的波动循环波动：围绕长期趋势出现的波浪形或者震荡性波动不规则波动：除去上面，临时出现的波动序列预测平稳序列移动平均法简单移动法简单来讲就是取一定范围内的平均值average()，这个一定范围的选取规则是看均方误差MSE最小情况下的范围值。加权移动平均法就是给每个观测值加上不同权重指数...

2020-02-28 21:57:07 285

原创统计学第十五打卡：方差分析实践

from scipy import statsimport pandas as pdimport numpy as npfrom statsmodels.formula.api import olsfrom statsmodels.stats.anova import anova_lmfrom statsmodels.stats.multicomp import pairwise_tuk...

2020-02-23 23:11:44 235

原创统计学第十四周打卡：方差分析理论

定义：通过检验各总体的均值是否相等来检验分类性自变量对数值型因变量是否有显著性影响。单因素方差分析1、提出假设H1：自变量对因变量具有显著性影响H0：自变量对因变量没有显著性影响2、构造统计量计算各样本的均值计算总体样本的均值计算各误差的平方和：总体平方和SST、各样本的平方和SSA、组内平方和SSE计算统计量n=全部观测的个数k=总体的个数MSA=SSA/（k...

2020-02-16 21:24:55 324

原创统计学第十三周打卡：回归分析实战

2020-02-16 16:36:38 94

原创统计学第十二周打卡：回归分析

一元线性回归相关关系定义：变量间存在不确定数量关系，称为相关关系。描述：正相关、负相关、完全正线性相关、完全负线性相关、非线性相关、不相关指标：相关系数r取值范围：[-1,1]；绝对值r小于0.3，为不相关；0.3-0.5之间，为低度相关；0.5-0.8，为中度相关；0.8+，为重度相关。显著性检验：因为r是计算样本数据的相关性，会受到抽样波动的影响，因此是否能够用样本的r值呈现...

2020-01-19 22:37:03 331

原创统计学第十一周打卡：假设检验实操

2020-01-06 23:35:55 189

原创统计学第十周打卡：假设检验

整体思路：先对整体统计量做一个猜想，然后用样本统计量进行验证猜想是否准确。假设检验中可能出现的概率问题假设检验的流程：1、首先提出原假设和备选假设；H0和H12、确定合适的统计量，并进行计算。其中计算假设量，就类似于计算一个分数，分数确定概率大小；3、最终进行判断，看概率是落入拒绝域还是允许域。其中P值是我们用来做决策的重要指标，一般情况下没有说明显著性水平情况下，P小于0....

2020-01-05 23:43:52 776

原创统计学第八周&第九周打卡：参数估计

整体思路：从总体中随机抽取随机样本来估计总体的未知数据特征

2019-12-29 14:44:03 210

原创统计学第六周&七周打卡：抽样与抽样分布

一个总体参数推断时，样本统计量的抽样分布样本均值的抽样分布定义：在重复选取容量为n的样本时，由样本均值的所有可能取值组成的相对频数分布，成为样本均值的抽样分布样本方差的抽样分布卡方分布样本比例的抽样分布总结：两个总体参数推断时，样本统计量的抽样分布两个样本均值之差的抽样分布两个样本比例之差的抽样分布两个样本方差比的抽样分布F分布...

2019-12-08 19:36:47 243

原创统计学第五周打卡：概率与概率分布python实现

伯努利分布理解：抛一次硬币的实验，只有两个结果，正面or反面from scipy import statsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib#下载中文字体SimHei = matplotlib.font_manager.FontProperties(fname="C:\working\...

2019-12-01 22:53:43 133

原创统计学第四周打卡：概率与概率分布

随机变量根据随机变量的数值特性，分为离散型随机变量、连续型随机变量。概率分布离散型随机变量：二项分布：泊松分布总结：连续型随机变量：首先，概率密度函数应满足以下几个条件其期望值与方差分别为：正态分布：均匀分布：指数分布：总结：...

2019-11-24 10:39:20 131

原创统计学第二周&第三周打卡：数据的度量性概括及python实现

集中趋势众数、中位数、平均数import pandas as pdimport numpy as npdf=pd.read_csv(r'C:\Users\admin\Desktop\test.csv')#df.ioc[1:2]yuwen=list(df['语文'])avg=np.mean(yuwen)mid=np.median(yuwen)cur=np.argmax(np.bin...

2019-11-10 23:36:23 148

原创统计学第一周打卡：数据图表的展示

统计学第一周打卡：数据图表的展示一、知识点汇总二、python实现相关图表一、知识点汇总描述数据一共有三种方式，分别是文字、表格和图表。在呈现数据图表中，我们首先需要对数据进行清洗、处理，其次将数据整理成表格，最终再根据数据要表达的结果选择合适的图表，进行展示说明。数据格式分为两种：离散型数据、连续性数据。图表的选择：可以参考下图。二、python实现相关图表以下展示个人使用pyec...

2019-11-03 17:54:16 636

macmurphy的博客