数据分析总结

haobu枳

已于 2023-11-07 17:00:36 修改

阅读量287

点赞数

文章标签：数据分析

于 2023-09-22 21:53:34 首次发布

本文链接：https://blog.csdn.net/m0_43438849/article/details/133187439

版权

数据分析

分析指标

数据指标制定思想

O（Object，目标）：在建立数据指标体系之前，一定要清晰地了解当下的业务重点和目标，也就是模型中的O。换句话说，业务的目标对应着业务的核心指标，了解业务的核心指标能够帮助我们快速厘清指标体系的方向。

S（Strategy，策略）：了解业务目标和核心指标之后，就需要在此基础上根据用户行为路径进行拆解，这个拆解一定对应着业务策略，也就是模型中的S。把核心指标拆解成一个个过程指标，每个过程指标对应着相应的行动策略，这样就可以在整条链路中分析可以提升核心指标的点。

M（Measure，指标）：针对上面拆解的每个业务过程，制定对应的评估指标，也就是模型中的M。评估指标的制定是将产品链路或者行为路径中的各个过程指标进行下钻细分，这里用到的方法就是麦肯锡著名的MECE模型，需保证每个细分指标是完全独立且相互穷尽的。

用户指标

用户数据：来源->渠道来源，渠道转化率；多少->新增用户数，DAU（日活跃用户），MAU（周活跃用户），WAU（月活跃人数）；画像->性别，地域，年龄，职业；质量->次日留存率/3日留存率，访问间隔时间。黏性指标可以衡量用户对产品的依赖程度和忠诚度，以及产品的粘性和活力。
行为数据：次数->PV（页面浏览量），UV（独立访客）；各环节转化率用漏斗模型->平均停留时间、平均访问页面数，跳出率，CTR（点击率）。活跃指标可以衡量用户对产品的兴趣和价值感知，以及产品的吸引力和留存力。
收支数据：内容->点赞，收藏，评论，转化次数；成交->GMV（商品交易总额），ARPU（单用户均收入），付费频次，复购率。产出指标可以衡量用户对产品的满意度和认可度，以及产品的盈利能力和可持续性。

数据指标落地

保证指标基建的数据完整和准确性，首先要先确保埋点收集的数据事件是否足以支撑所构建的指标，然后就是对脏数据清洗，例如在微软日期的例子，可以在这介绍ETL。
熟悉数据指标背后的业务含义
从指标变动中做出决策，如果是周期变化的就是正常波动，但是如果是突发+下跌，就是异常波动。
考虑在指标的不同生命周期中不同阶段使用不同的指标，比如在业务的初期关心业务的知名度，我们去关注一些新注册人数，分享率指标；在成长期业务目标关注推广占有市场，会关注新用户注册；在业务成熟期，业务目标要将前期流量变现，确保盈利，就比较关注付费率等；最后在衰退期，就比较关注存量人群精细化经营更在意复购率。
画图：折线图，饼图，柱状图，散点图
后期活动：校企合作，拉群写作文，公众号推文，版本功能迭代
相关性分析：皮尔逊相关系数用于评估一个变量的变化与另一个变量是否呈比例变化的线性关系。
对比分析：基本的统计量：均值、中位数、众数、方差、标准差、百分位数等。

MECE

MECE模型要求把一个复杂的问题拆分成若干个不重叠、不遗漏的子问题，从而能够全面而有条理地进行思考和处理。找到合适的切入点。切入点是指从哪个维度或角度来对问题进行拆分，比如按照时间、空间、功能、属性、因果等方式。切入点应该符合问题的性质和目标，也应该保持维度的一致性。
二分法：把问题分成两个互斥的部分，如男女、黑白、阴阳等。
流程法：按照事物发展或变化的时间、顺序、阶段等方式进行分类，如项目管理中的计划、执行、监控、收尾等。
要素法：按照事物由哪些部分或因素组成进行分类，如公司组织结构中的部门、职位、人员等。
公式法：按照公式中涉及到的变量或参数进行分类，如利润=收入-成本，其中收入 = 单价 *销量，成本=固定成本 + 变动成本。这四个子问题都是相互独立的，也就是说，改变其中一个不会影响其他三个。同时，这四个子问题也是完全穷尽的，也就是说，它们包含了影响利润的所有因素。
矩阵法：按照两个或多个维度进行交叉分类，形成一个二维或多维的表格，如时间管理中常用的紧急重要矩阵。

用户画像分析

数据收集和预处理：根据业务目标和场景，收集用户的相关数据，如基本信息、消费记录、行为日志等。对数据进行清洗、缺失值处理、标准化等操作，使数据符合聚类的要求。
特征选择和降维：根据业务逻辑和数据分析，选择对用户画像有意义的特征，如年龄、性别、收入、购买频率、购买金额等。如果特征维度过高，可以使用主成分分析（PCA）等方法进行降维，减少计算量和噪声。
聚类算法和模型评估：选择合适的聚类算法，如K-means、层次聚类、DBSCAN等，对数据进行聚类。确定聚类的个数，如使用肘部法则、轮廓系数等指标。评估聚类的效果，如使用内部指标（如误差平方和）或外部指标（如调整兰德指数）。
用户画像解读和应用：根据聚类的结果，对每个类别的用户进行描述和命名，如高价值用户、忠诚用户、流失用户等。分析每个类别用户的特点和需求，制定相应的营销策略或产品优化方案。

用户画像评价

业务指标：业务指标是用户画像最终的评估指标，主要看用户画像在实际应用中是否能够提升业务效果，如点击率、收入、销量、留存率等。业务指标的评估一般需要通过线上的A/B测试来进行，比较使用用户画像和不使用用户画像的两组用户的表现差异。
离线指标：离线指标是用户画像在构建过程中的评估指标，主要看用户画像是否能够反映用户的真实需求和特征，如准确率、召回率、F1值、AUC值、K-S值等。离线指标的评估一般需要通过历史数据来进行，比较用户画像和实际数据的一致性。
线上指标：线上指标是用户画像在上线后的评估指标，主要看用户画像是否能够覆盖足够多的用户和场景，如画像有点数、画像有点率、人均标签数等。线上指标的评估一般需要通过实时监控来进行，比较用户画像的分布和变化情况。

AB检测

AB检测，也称为AB测试，是一种在线实验的方法，用于比较两个或多个版本的网页或应用程序的效果，以确定哪个版本能够更好地实现预期的目标，例如提高用户转化率、点击率、留存率等。AB tset 背后的原理为假设检验，假设检验是以小概率原理为依据。

假设检验

1确定原假设和备则假设
原假设也叫零假设，用HO表示，除非有充足的证据进行反驳，否则就要接受这个断言。备择假设用H1表示，如果足够的证据拒绝H0，我们接受备择假设。
2构造检验统计量
如果检验统计量服从标准正态分布，总体方差已知或样本量较大(n>=30)，检验统计量一般用Z表示，也称为Z检验;如果检验统计量总体方差未知且样本容量小(n<30)，检验统计至一般用t表示，也称为t检验。
3确定用于做决策的显著性水平和拒绝域显著性水平是一个概率值，希望样本结果的不可信程度达到多大时就拒绝原假设H0，通常用希腊字母a表示，常取值为0.01，0.05，0.10。根据假设的形式不同分为单尾检验和双尾检验，单尾检验的目的是比较检验统计量是否大于或者小于某个常数，因此其检验的拒绝域就放置于单侧。右侧检验拒绝域在右侧，左侧检验拒绝域在左侧。例如中学生中男生的身高是否比女生高。双尾检验的目的是检验统计员的均值是否有差异，拒绝域在左右两侧，例如中学生中男女的身高是否有差异。
4.计算统计检验量的P值
P值就是当原假设为真时，P值为某个小于或大于拒绝域方向上的的一个样本结果的概率。如果P值很小，意味着在原假设的情况下，这种情况几乎不可能发生，应该拒绝原假设。
5.作出结论
如果是左侧检验，P值<a，则拒绝HO;
如果是右侧检验，P值>a，则拒绝HO;
如果是双尾检验，P值<1/2a，则拒绝HO

假设检验两种错误

第一类错误是指弃真错误，原假设为真却错误的拒绝原假设，这种弃真错误称为I型错误。其概率大小用即用a表示。
第二类错误为取伪错误，原假设为假却错误的接受了原假设，这种取伪错误称为II型错误，其概率大小用B表示，B的大小很难确切估计，a愈小，B愈大，因而可通过选定a控制B大小
检验功效为1-B，表示在一定的检验水准下，当备择假设为真时，假设检验能够拒绝原假设的概率。

AB检测流程

基准转化率:实验开始之前对照组的数据，假设实验前转化率是20%，预期转化率是25%;b.最小可检测效果:实验改动带来的预期目标提升;
最小可检测效应: 最小可检测效果是 5%(25%- 20%)，选择绝对，最小可检测效果是25% ((25%- 20%) 120%)，选择相对的。
在这里插入图片描述
1、一般在开始实验之前，我们首先需要和相关的产品或者项目经理确定这个实验所要验证的改动点是什么。

2、在确认改动点之后，数据分析师需要设计实验中所需要去观测的一些核心指标，比如点击率、转化率等。
3、确定完核心指标之后，下一步就是计算实验所需的最少样本流量，实验样本越大，我们的结果越可信，但是对我们用户的不良影响就越大。所以我们需要计算能够显著地证明我们的策略有效的最少样本量。
4、然后还要结合目前的日均活跃的用户量，计算实验持续的时间周期。
5、在计算完所需样本量之后，就要设计流量分割策略，根据实验需要对样本流量进行分流分层，保证样本的随机和均匀分布，避免出现辛普森悖论。
6、以上准备工作就绪，就需要和PM以及开发同学确认可以开始实验。一般在上线正式实验之前，会通过小流量去看一段时间的灰度实验。这个灰度实验的目的就是为了验证我们这个改动并不会造成什么特别极端的影响。
7、在灰度之后就会正式发版，等到实验周期结束，我们对实验的结果进行显著性检验。

竞品分析

产品层面：从产品定位、功能、技术、体验等维度进行分析，找出产品的优势和不足，进而确立核心竞争力和优化方向。
用户层面：从产品用户的画像特征上进行分析，找出和竞品用户群的不同之处，分析原因和可能拓展的用户细化用户群。
营销运营层面：从营销和运营的角度来看，对比竞对的营销和运营模式的差异，取其精华，结合自身业务特点，找到适合自己的营销和运营策略。

风控评分卡

数据准备：这一步主要是收集和清洗客户的数据，包括基本信息、信用历史、财务状况等，以及客户是否违约的标签。数据准备的目的是确保数据的完整性、准确性和一致性，以便进行后续的分析。
变量筛选：这一步主要是从数据中选择出与客户信用风险相关的变量，剔除无关或冗余的变量。变量筛选的方法有很多，例如单变量分析、相关性分析、卡方检验、信息价值（IV）等。变量筛选的目的是提高评分卡的效率和稳定性，避免过拟合或欠拟合。
变量分箱：这一步主要是将连续型或类别型的变量分为若干个区间或组别，使得每个区间或组别内的客户具有相似的信用风险，而不同区间或组别之间的信用风险有明显的差异。变量分箱的方法有很多，例如等频分箱、等距分箱、最优分箱、卡方分箱等。变量分箱的目的是消除变量之间的非线性关系，简化评分卡的模型。
模型开发：这一步主要是利用筛选和分箱后的变量建立评分卡模型，通常采用逻辑回归（Logistic Regression）作为模型算法，因为它具有简单、可解释、易于实施等优点。模型开发的过程包括变量入模、模型拟合、模型校验等环节，最终得到一个能够预测客户违约概率的数学公式。
评分转换：这一步主要是将模型得到的违约概率转换为评分值，通常采用线性转换公式，即Score = A - B * ln(Odds)，其中A和B是常数，Odds是违约概率与非违约概率之比。评分转换的目的是将模型输出转化为更直观和易于理解的评分形式。
评分验证：这一步主要是对评分卡进行验证和测试，检验其在新数据上的表现是否符合预期。评分验证的方法有很多，例如区分度（KS）、稳定性（PSI）、准确率（Accuracy）、召回率（Recall）等。评分验证的目的是评估评分卡的有效性和可靠性，以及发现和改进评分卡存在的问题。
其中，A 表示训练评分卡时所用到的样本，E 表示当前的样本。我们用同一个模型对两个样本进行打分，再进行等宽分箱，让每一个箱中的信用评分差都相同，计算每个箱中的样本占整体样本的占比，把训练时所用到的样本作为实际样本占比，这样就能计算每一个区间的 PSI，,最后将所有PSI相加即可PSI 处于0-0.1范围内时，稳定性较好，用户数据分布没有变化PSI处于0.1-0.25范围内时，稍微有不稳定，用户发生变化，需要继续监控变化PSI大于0.25时，模型是不稳定的，需要进行特征分析或者调整模型

随机森林

首先，从原始数据集中有放回地随机抽取多个样本子集，每个子集的大小和原始数据集相同。
然后，对每个子集，从所有特征中随机选择一定数量的特征，用这些特征构建一棵决策树，不需要进行剪枝。
最后，将所有的决策树组合起来，形成一个随机森林。对于分类问题，采用投票的方式，让每棵树对新样本进行预测，然后选择票数最多的类别作为最终结果；对于回归问题，采用平均的方式，让每棵树对新样本进行预测，然后计算所有预测值的均值作为最终结果。
基尼不纯度：基尼不纯度是一种衡量数据集中类别混乱程度的指标，基尼不纯度越小，说明数据集中的类别越纯，不确定性越小。随机森林会遍历每个特征的每个可能的分割点，选择使得基尼不纯度最小化的特征和分割点作为最优选择。
信息增益：信息增益是一种基于信息论的分裂准则，它表示得知某个特征后对数据集的不确定性的减少程度。信息增益越大，说明特征对数据集的划分贡献越大。

参数调优

Bagging框架的参数

n_estimators: 森林中树的个数，这个参数越大，模型的表现越好，但是计算量也会增大，所以需要选择一个适中的数值。一般来说，可以从10开始尝试，然后逐渐增加，直到模型性能不再提升为止。
oob_score: 是否使用袋外样本来评估模型的好坏，这个参数默认为False。如果设置为True，那么随机森林会在训练过程中对每棵树没有使用的样本进行预测，并计算一个袋外分数，这个分数反映了模型的泛化能力。建议设置为True，因为这样可以不用额外的验证集来评估模型。
criterion: 树划分时的评价标准，对于分类问题，可以选择基尼系数（gini）或者信息增益（entropy），对于回归问题，可以选择均方差（mse）或者平均绝对误差（mae）。一般来说，默认的标准就已经很好了，除非有特殊的需求或者想要尝试不同的标准。

决策树的参数

max_features: 树划分时考虑的最大特征数，这个参数可以是整数、浮点数或者字符串。如果是整数，表示每次划分时考虑的特征绝对数；如果是浮点数，表示每次划分时考虑的特征百分比；如果是字符串，可以选择"auto"（等同于"sqrt"），表示每次划分时考虑N个特征；或者"log2"，表示每次划分时考虑log2N个特征。其中N是总特征数。这个参数越大，单棵树可以考虑的特征越多，模型表现可能会更好，但是计算速度会变慢。一般来说，默认的"auto"就可以了，如果特征数非常多，可以尝试其他值来控制计算时间。
max_depth: 树的最大深度，这个参数可以限制树的生长，防止过拟合。如果不设置这个参数，默认为None，表示不限制树的深度。如果数据量少或者特征少，可以不用管这个参数；如果数据量大或者特征多，建议设置一个合理的值，一般在10-100之间。
min_samples_split: 内部节点再划分所需最小样本数，这个参数限制了子树继续划分的条件。如果某节点的样本数少于这

分箱

https://blog.csdn.net/sweet1194695742/article/details/116794173

将连续变量划分为离散区间的方法，常用于特征工程和评分卡建模。

等距分箱：在整个属性值的区间上平均分布，即每个箱的区间范围设定为一个常量，称为箱子的宽度。这种方法简单易用，但是可能会忽略数据的分布特征，导致某些箱中的数据过多或过少。
等频分箱 ：按记录数进行分箱，每箱具有相同的记录数，每箱的记录数称为箱的权重，也称箱子的深度。这种方法可以保证数据在各个箱中的均匀性，但是可能会破坏数据的原始顺序，导致相邻值被划分到不同的箱中
卡方分箱：卡方分箱的原理是基于卡方检验，将相邻区间的卡方值最小的合并在一起，直到满足一定的停止条件，如区间个数、卡方阈值、置信度等。卡方分箱的优点是可以根据数据的分布特征进行灵活的调整，同时保证每个区间内的数据尽可能相似，而不同区间的数据尽可能不同。
卡方分箱是一种有监督的数据分箱方法，它需要使用目标变量（例如二分类标签）来计算每个区间的实际频数和期望频数，以及每两个相邻区间的卡方值。卡方分箱的目的是使得每个区间内的数据尽可能相似，而不同区间的数据尽可能不同，从而提高特征的区分能力和模型的泛化能力。