CDA1级习题复习(1)

本文涵盖了数据分析的多个方面,包括业务理解、数据挖掘、数据分析的八个层次、CRISP-DM和SEMMA方法论、数据计量尺度以及统计概念如方差、标准差和峰度。还介绍了正态分布特性、t检验、相关系数、线性回归假设以及数据清洗和预处理方法。此外,讨论了特征工程、评估指标如精确度、召回率和F1分数。
摘要由CSDN通过智能技术生成
  1. 数据分析:包括业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型可视化,分析结果。
  2. 数据挖掘:是在大型数据集中运用人工智能,机器学习,统计学发现模式的过程。
  3. 数据分析八个层次:常规报表,即席查询,多维分析,警报,统计分析,预报,预测性建模和优化。
  4. CRISP-DM方法论:业务理解,数据理解,数据准备,建模,模型评估和模型发布。
  5. SEMMA方法论: 探索—修改—建模—评估—抽样—探索
  6. 数据的计量尺度:分类变量(名义测量),顺序变量(次序测量),数据变量(间距测量,比率测量)
  7. 几何平均数:用于计算平均成长率,n个比率相乘再开n次。
  8. 异众比率:1-(众数个数/总体)
  9. 方差是西格玛平方,标准差是西格玛。
  10. 图像峰值靠左是右偏,图像峰值靠右是左偏。
  11. 峰度是变量两边拖尾的情况。如果一个变量是尖峰的,在统计学中出现超过2倍标准差的数值的概率会大于5%,3倍的会大于1%。
  12. 在正态分布中,均值=中位数=众数。
  13. 在正态分布中,变量取值距离在均值2倍标准差内出现的概率为95%。
  14. 在正态分布中,一个标准差68%,2个标准差95%,3个标准差99.7%。
  15. 点估计命中目标的概率是极低的,所以要用区间估计。其中会用区间估计的平均数估计总体的平均数࿰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值