CDA二级（Level II）数据分析师——考试内容梳理四

rubyw

于 2024-06-18 23:06:05 发布

阅读量951

点赞数 26

分类专栏： CDA 文章标签：数据分析学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rubyw/article/details/139781606

版权

CDA 专栏收录该内容

4 篇文章

订阅专栏

定额抽样~~不属于概率抽样~~ 、类型抽样就是分群抽样；

在假设检验中，两类错误的概率相加后不等于1，
在样本量增大的条件下，两类错误的概率可以同时减小，
通常控制第一类错误的概率；（去真）

假设检验使用的是反证法，即先提出一个关于总体参数的假设，然后用样本数据来检验这个假设是否可能为真；

在假设检验中，左侧检验为>=，右侧检验为<=，指原假设；

区间估计是使用顺推法，即先不对总体参数提出具体假设，而是基于样本统计量来估计总体参数可能存在的区间；

假设在T分布下，实际算出来的统计量的值为2.75，P=T.DIST(2.75:2:TRUE）
P值的实质是当前的临界点与分布曲线所围城的曲线面积，求累积分布；

在大样本(n)下进行某列（A）均值的区间估计，点估计值为α，显著性水平为0.05，
Z0.025为给定的显著性水平下的正太分布的临界值：
EXCEL计算：α±Z0.025*STDEV.S(A:A)/(AQRT(n)，大样本为n小样本为n-1

区间估计的结果为点估计的值加减一定倍数的标准差；

单因素方差分析中，当p<0.05，则接受备择假设，即至少有两组之间的均值有显著性差异；

单因素方差分析的假设：
1.每个总体服从正太分布
2.每个总体的方差相同
3.从每个总体中抽取的样本是相互独立的

在不知道具体比例的情况下，通常取P=0.5来计算最大样本量；

方差分析主要用来比较两个或多个组的平均数差异，通常自变量是分类型，因变量是连续型；

相对于主成分分析而言，因子分析时更偏向解释的分析时，需要进行因子分析，而类似于综合排名、综合打分这样无需进行解释的分析可以进行主成分分析；

因子分析通常~~不适用于预测模型~~ ，它更侧重于变量的可解释性而~~非预测准确性~~ ；

进行主成分分析（PCA）之前，如果变量的取值范围相差很大，先对每个变量进行中心化，然后使用相关系数矩阵代替协方差矩阵计算主成分；

多元线性回归模型m，输出模型的残差图：plt.scatter(m.predict(data),m.resid),
resid:残差序列

在进行逻辑回归模型的系数解释时，应借助优势比的概念来进行，所以1作为参考进行解释；

在逻辑回归中，使用classification_report输出分类报告时要求输入的是真实标签和预测标签：
classification_report(y,y_hat) 预测;

在逻辑回归模型中，使用约登指数来确定最优阈值，具体是选择使得==(tpr-fpr)==达到最大的时候的阈值作为最优阈值；

逻辑回归通过logit模型转换后，输出0-1的概率值；

目标函数包括决策变量；

在高斯马尔科夫假设中，线性回归对·残差序列·的假设包括：不相关、正态性和同方差；

岭回归和Lasso回归属于·收缩方法·，
可以处理多重共线性问题，但会改变原有回归模型；

向后回归法要求样本量必须大于自变量的个数，否则模型会过拟合；

QQ检验确保扰动性服从正太分布；

在时间序列的差分操作中，包括·阶次差分·主要是用来消除长期趋势的影响，而·步次差·分主要是用来消除季节效应的影响； 先阶次再步次

在对时间序列模型进行评估时，常用的方法是残差的噪声检验；

聚类算法：A(2,3) B(5，-1）
欧氏距离：求斜线，结果为5
曼哈顿距离：求绝对值，结果为|5-2|+|-1-3|=7

在使用Excel计算假设检验中对应的p值时，使用的函数是DIST()，计算临界值时使用的函数是INV（）;

根据数据收集方式的分类，分为实验数据和观测数据，观测数据又分为追溯型、跟踪数据；

数据治理域包括：数据战略与规划、组织架构与职责、管理流程与管理制度；

数据应用域包含：监管报表应用、精准营销应用、产品创新应用；

设计逻辑模型时，要遵循范式的设计概念，减少冗余，完整性和可扩展性；

OLAP系统的响应时间合理，OLTP系统对响应时间要求高；

概念模型描述企业内主要业务的实体及实体间的业务关系，不需要对实体属性具象化；
学校→学生→应用

在信息不足的情况下，对照其它信息源进行修正；

指标不足的情况下，对照其它信息源进行修正；

指标体系包括：根指标、组合指标、派生指标，用户指标属于维度库；
根指标：销售额、净利润
组合指标：客单价=销售额/下单用户数
派生指标：客户流失率=流失用户数/总用户数，流失用户数为组合指标
根指标+维度指标→组合指标+根指标→派生指标

连续型变量：
中心标准化：Xi-mean(x)/Stdx
归一化：Xi-min(x)/max(x)-min(x)

分箱：
等宽：取值范围一样
等深：观察值数量一样

期望频数=（行数/样本量列数/样本量）样本量=（行数列数）/样本量）
卡方贡献=（观察频数-期望频数）2/期望频数） 远大于增大贡献率
卡方检验自由度=（行数-1）（列数-1）

Python抽样：
1.random.sample:无放回→replace→False
2.random.choice:没有指定replace，默认True，有放回；

apply方法不能用来填充缺失值，lambda函数针对的是一个元素值，而不是一个series对象；

data_raw[‘gender’]=data_raw[‘gender’].replace({‘Male’:1,‘Female’:0}),
可以用于数据编码，并未处理缺失值；

sklearn+PCA:
preprocessing.scale(data):标准化到均值0方差1，不是归一化，是中心化
PCA(n_comporents=9):将数据降维到9个成分，不是降维了
pca.explanined_variance_:输出降维后各主成分的方差
pca.explanined_variance_:各主成分方差占总差分的比例

Python中删除多列的方式为：
df.drop(["A’,‘B’].axix=1)，指定列
df.drop(columns=[‘A’,‘B’])，指定列名

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

rubyw 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。