CDA Level 2备考好帮手
文章平均质量分 94
本专栏以CDA二级认证教材《商业策略数据分析》为基础,作者亲自实践。记录了过程中遇到的各种问题,并提供解决方法。包含如下优势:
(1)对原理及公式说明,以及必要的证明;
(2)对代码进行详细解释;
(3)每个内容都经过作者亲自实践;
(4)内容更丰富。
优惠券已抵扣
余额抵扣
还需支付
¥99.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
leboop-L
学习 分享
展开
-
第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归
从以上结果中,可以看到模型的为0.720,拟合效果还是不错的。默认显著性水平,F检验的p值为8.36e-14,接近0,拒绝原假设:,说明回归系数不为0。从单个系数的显著性t检验来看,初步判断gender、dist_avg_income及edu_class是显著的,P>|t|的值接近0。对于目前表现不显著的变量,需要进一步对模型调优后作出显著与否的判断。原创 2023-11-23 15:18:41 · 1256 阅读 · 3 评论 -
第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归
变量之间的关系,一般可以分成两类,确定性关系和非确定性的依存关系。(1)确定性关系如果一个变量的值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。可以写成如下形式:这里就是“按某一规律唯一的确定”中的那个唯一的规律。确定性关系通常也称为函数关系。事实上,上式就是我们熟悉的多元函数。其中为自变量,为因变量。例如:假设每吨水的价格为10元时,居民应缴纳水费(元),与用水量(吨)之间的关系就是一个确定性关系,确定性关系如下:(2)非确定性关系。原创 2023-11-21 14:14:38 · 192 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.1-假设检验
假设检验,我们从品茶的女士这个故事开始说起。希望这篇文章能给您带来极大的收获。原创 2023-11-04 23:00:47 · 343 阅读 · 0 评论 -
第6章-用户标签体系与用户画像
和属于用户视角下的数据分析。用户标签是进行用户画像的基础,用户画像可以辅助业务人员制定用户分群策略。原创 2024-01-07 14:32:50 · 1115 阅读 · 0 评论 -
第3章-指标体系与可视化-3.3-指标体系
指标体系是指系统地反映评价对象整体的多个具体指标的集合。指标体系有指标和维度两个构件组成。指标其实就是与业务相关的连续型变量的某个统计量,例如金额、频次、数量等,是反映企业经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值,而维度通常是分类型变量,例如产品维度、渠道维度,是对企业在业务经营过程中涉及的对像的属性进行划分的方式。指标通常有基础数据汇总而来,例如“总销售额”指标,可以通过交易的销售明细汇总得到,然后与地区、产品、渠道等维度相结合,以报表形式呈现,继而可以做仪表盘或进行多维分析。原创 2024-01-06 12:05:11 · 1020 阅读 · 0 评论 -
各章练习题解析
第1题A选项:敏捷分析阶段主要针对业务宏观方面的分析,如财务报表、财务报告或经营分析。行为分析阶段对应的是微观个体层面的洞察。C选项:在协同思维阶段,业务运营人员会逐渐认识到数据驱动的重要性,与数学科学家合作一同完成模型的开发,也就是业务与技术的协同。D选项:自适应阶段其实属于企业自主决策阶段,自主决策阶段,实现数据自适应,业务流程完全自动化。在该阶段流程中,当发现存在生产问题时,会自动识别出现问题的具体原因,并进行及时修正。也会涉及业务流程优化。原创 2024-01-03 15:13:34 · 487 阅读 · 0 评论 -
第1章 EDIT模型概述
在进行预测时,我们是在用户个体层面上进行分析、建立模型的,这样的分析属于微观层面。在开始建立模型时,一般情况下都是数据科学家主导建模,但是数据科学家对业务的理解并不是那么透彻,为了更好的分析业务需求,业务运营人员与数据科学家进行深度合作,企业进入协同思维阶段,也被称为协同分析。随着数据应用场景逐渐丰富,企业开始进行数据产品化管理,数据产品的需求量越来越大,于是进入了分析应用阶段。包括定性的外部因素分析、内部因素分析,以及定量的画像分群分析、趋势维度分析、漏洞洞察分析、行为轨迹分析和留存分析。原创 2024-01-03 14:45:40 · 915 阅读 · 0 评论 -
第9章-用户分群方法-K-means聚类算法
给定个样本构成的样本集,每个样本有个特征。算法步骤如下:1、随机选取(超参数)个质心,其中,每个质心对应一个类别,分别记作;2、对于每个样本,计算该样本到每个质心的距离将分配到距离最近的质心对应的类别中,如下:;如果样本类别不再变化,停止。3、重新计算每个类别的质心得到个类别的质心。4、更新,继续步骤2。如图:图(a)中是所有的样本点的分布,从分布来看,初步将样本分为两类,所以设置;图(b)中红色和蓝色叉是随机选择的两个质心,类别分为标记为。原创 2023-12-29 11:39:55 · 889 阅读 · 0 评论 -
第9章-用户分群方法-层次聚类
层次聚类算法(Hierarchical Clustering)根据层次分解的顺序分为:自下向上和自上向下,即凝聚的(agglomerative)层次聚类算法和分裂的(divisive)层次聚类算法,也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。:凝聚型层次聚类,就是一开始每个个体(object)都是一个类,然后根据联系(linkage)寻找同类,最后形成一个“类”。原创 2023-12-27 15:51:15 · 418 阅读 · 0 评论 -
第9章-用户分群方法-聚类评估指标
聚类是一种无监督分类算法,通常给定的样本没有类别或标签,聚类结果的好坏难以使用有监督模型的评估方法衡量。聚类评估指标思想在于类簇内的差异尽可能小,也就是紧密度高,而类簇间差异尽可能大,也就是分离度高。本文主要介绍轮廓系数(Silhouette Coefficient Index)、均方根标准差(Root-Mean-Square Standard Deviation,RMSSTD)、R-Square、调整的兰德指数(ARI)。原创 2023-12-27 13:08:52 · 563 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.5.5-因果推断模型
CausalML是一个Python包,它使用基于最近研究的机器学习算法提供了一套增益建模(Uplift Modeling)和因果推理(Causal Inference)方法。它提供了一个标准界面,允许用户根据实验或观察数据估计条件平均干预效果(Conditional Average Treatment Effect,CATE)或个体干预效果(Individual Treatment Effect,ITE)。本质上,在没有对模型形式进行强假设的情况下,CausalMl估计了对具有特征的用户进行干预。原创 2023-12-15 22:20:25 · 945 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估
准确率(Accuracy)是指分类正确的样本数占总体样本数的比例,即从混淆矩阵来看,行总(TP)TP+FN(TN)FP+TN列总TP+FPFN+TN对角线元素之和即为分类正确的样本数,所有元素之和即为样本总数,也就是精准率(Precision或者Positive Predictive Value)是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。从混淆矩阵来看,行总(TP)TP+FN(TN)FP+TN列总TP+FPFN+TN。原创 2023-12-10 11:36:40 · 999 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.5-逻辑回归
第一轮抛掷10次,4次正面向上,6次反面向上。从结果来看,curPlan,avgplan,nrProm,peakMinAv均不显著,删除后(是否删除需要结合业务的理解判断,这里直接删除),重新拟合。这里,就只知道事件或者状态的结果,也就是正面出现7次,反面出现3次。当模型加入该变量后,要对原有的变量进行检验,一旦某个变量变得不显著,就从模型中删除该变量(向后回归法)。统计学家赤池弘次创立和发展的,因此又称赤池信息量准则,它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。原创 2023-12-03 19:34:43 · 794 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.3-列联表分析与卡方检验
卡方检验的思想是比较期望频数和实际频数的吻合度。实际频数指的就是交叉表中,而期望频数指的是当行变量与列变量相互独立时的频数。原创 2023-11-26 13:06:54 · 1009 阅读 · 0 评论 -
第7章-使用统计方法进行变量有效性测试-7.2.1-单因素方差分析
方差分析就是用于检验每组样本均值是否有显著性差异,如果没有显著性差异,则说明信用卡消费不受教育程度的影响,否则,信用卡消费受教育程度的影响。它将信用卡消费分成三组,初等教育程度的信用卡消费分为第一组,中等教育程度的信用卡消费分为第二组,高等教育程度的信用卡消费分为第三组。因素的不同水平(不同总体)下,各观察值之间的差异,这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。,比如例子中的教育程度,就是影响信用卡消费的一个因素。原创 2023-11-12 21:43:46 · 255 阅读 · 0 评论 -
一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等
当,称为标准正态分布,即。对数正态分布(logarithmic normal distribution)是指一个的对数服从正态分布,则该随机变量服从对数正态分布。对数正态分布从短期来看,与正态分布非常接近。但长期来看,对数正态分布向上分布的数值更多一些。假设服从的正态分布为,概率密度函数为,服从的分布为,概率密度函数为。显然有。下面证明的概率密度函数表达式如上面所示。一般我们通过分布函数和概率的定义来证明。,因为,则即,两边对求导,得到:,即:。原创 2023-10-08 15:08:13 · 1247 阅读 · 0 评论 -
第5章-宏观业务分析方法-5.5-多维尺度分析
在商业分析中,经常需要了解不同观测之间(不同产品之间,不同用户之间)的差异程度或相似程度,用以发现产品间的关系、或者用户间的关系等。不同观测之间的差异性或者相似性的度量方式有很多,比如基于余弦公式的相似度,或者基于欧式距离的相似度,等等。注意到差异性和相似性相反,也就是说差异性越大,相似性越小,反之亦然。本文以欧式距离衡量差异性为例说明。多维尺度分析(Multi-Dimensional Scaling,MDS)是一种数据降维和可视化方法。原创 2023-10-06 16:06:16 · 209 阅读 · 0 评论 -
第5章-宏观业务分析方法-5.4-因子分析
矩阵的特征值分解只对方形矩阵有效。让我们看看什么是正方形矩阵。在方形矩阵中,行数和列数是一样的。比如说:这是两行两列的矩阵,一般叫作阶矩阵。同样的,如果矩阵有n行n列,称之为阶矩阵,或者n阶矩阵。下面来继续讨论特征值和特征向量的概念。原创 2023-10-05 08:39:14 · 172 阅读 · 0 评论 -
第5章-宏观业务分析方法-5.3-主成分分析法
主成分分析是以最少的信息丢失为前提,将原有变量通过线性组合的方式综合成少数几个新变量;用新变量代替原有变量参与数据建模,这样可以大大减少分析过程中的计算工作量;主成分对新变量的选取不是对原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息;同时选取的新变量之间互不相关,能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。原创 2023-10-01 20:38:58 · 940 阅读 · 0 评论 -
第3章-指标体系与数据可视化-3.2-描述性统计分析与绘图
一个变量的分布有有限个参数,例如正态分布有两个,均值和标准差,只要明确了这些参数,该变量分布就确定了。名义变量是指没有顺序的分类型变量,例如“性别”(男、女)、“民族”(汉族、回族、...)、“居住城市”(大连、北京、...)等。下面以二手房屋价格sndHspr.csv数据为例,计算连续型变量“房屋价格”的统计量平均数、中位数、四分位数,以及绘制该变量的直方图。包含类型信息的变量。例如“性别”(男、女)、“民族”(汉族、回族、...)、“居住城市”(大连、北京、...)、“收入等级”(高、中、低)等。原创 2023-09-27 15:35:00 · 586 阅读 · 0 评论 -
第3章-指标体系与数据可视化-3.1-Python可视化-3.1.2-Seaborn绘图库
样例数据使用的是np.random.uniform(low=-1, high=1, size=(7, 7)),表示a=-1,b=1,size=(7,7)表示7行7列矩阵,总共49个数。整行代码的意思是:生成一个服从均为分布的7行7列的矩阵,每个数据的范围在(-1,1)之间,且生成每个数据的概率是一样的。从图中,很直观的看到b和B,f和D,c和G变量之间的相关性很强。(2)散点图的顶部和右边是两个直方图,它们描述的是两个边际分布,顶部是二维正态分布的x的边际分布,右边是二维正态分布的y的边际分布。原创 2023-09-26 13:19:56 · 615 阅读 · 2 评论 -
第3章-指标体系与数据可视化-3.1-Python可视化-3.1.1-Matplotlib绘图库
两者有如下不同:(1)条形图可视化的是分类变量数据分布,条形图中的每个矩形表示一个类别,分开排列;(3)我们知道,右偏(正偏)分布,小尾巴在右边,众数是峰值,众数左边的数据比较多,所以中位数在众数左边。从箱子中位数来看,语文成绩的中位数在下面,放在横轴上,就是在左边,即语文呈现右偏分布。从图可以看到,每个矩形都是相连的,原因是直方图可视化的是连续变量数据。矩形的高度表示数据范围中数据的频数,例如[30,40),矩形的高度表示大于等于30,且小于40的数据的个数。饼图的作用是可视化分类数据在整体中的占比。原创 2023-09-25 23:07:39 · 477 阅读 · 0 评论 -
第2章-数据处理-2.2-数据整合
这里使用了sample.score,等价于sample['score'],它是Series类型数据,获取的是score这一列数据。new_col_1,new_col_2为创建列的列名,value_1,value_2是对应列的值。(1)iloc[:,0]有两个参数,第一个参数表示要选择的行范围,:表示获取所有的行,第二个参数表示要选择的列范围,0表示列索引,列索引从0开始,也就是sample2的第一列。(1)DataFrame类型的sample2,经过多列选择后,仍然是DataFrame类型。原创 2023-09-20 10:12:22 · 154 阅读 · 0 评论 -
第2章-数据处理-2.3-数据清洗
数据清洗是数据分析的必备环节,在分析过程中,有很多不符合分析要求的数据,这些数据可以被认为是脏数据,有如下几种:(1)重复数据(2)错误数据(3)缺失数据(4)异常数据。原创 2023-09-18 22:33:08 · 148 阅读 · 0 评论 -
第2章-数据处理-2.1-使用pandas读取结构化数据
(2)sample.xlsx中id=4的scores的值为空白,读取输出后为NaN,在Python中,NaN(Not a Number)是一种特殊的浮点数值,表示无法表示或计算的数值。sample.csv中总共5条数据,按块读取,每块大小为2,所以总共被分为3个数据块。第一个运行结果打印的是每个块的维度,两个2行3列的块和1个1行3列的块。前面,我们将小兰scores的空白值读取为NaN。(1)结果的第一列为索引(index),第一行为列名(column),其余为数据内容(values)。原创 2023-09-18 13:19:41 · 150 阅读 · 0 评论