CDA LEVEL 2 建模分析师备考笔记

最新推荐文章于 2024-06-18 19:21:20 发布

明夏小斯

最新推荐文章于 2024-06-18 19:21:20 发布

阅读量2.2k

点赞数 4

分类专栏：数据分析文章标签：数据分析建模分析师 CDA数据分析师

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_17105473/article/details/111941737

版权

CDA LEVEL 2 建模分析师备考笔记

目录

- CDA LEVEL 2 建模分析师备考笔记
基础理论
数据预处理
预测型数据挖掘模型
描述型数据挖掘模型

基础理论

Data mining：数据挖掘，从现有大量数据中撷取不明显、之前未知、可能有用的知识。
KDD知识发现过程：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
CRISP-DM方法论：业务理解、数据理解、数据准备、建模、模型评估、模型发布。
SEMMA方法：抽样、探索、修订、建模、评估。
变量测量类型：名义测量、次序测量、连续测量。

分类变量：

检查：众数、分类取值百分比差异。
主要统计量：频次、百分比；累积频次、累积百分比（仅用于有序变量）。

连续变量：

检查：中心水平、离散程度、偏态程度、峰度。

数据预处理：通过各类技术手段对数据进行划分、清理、转换、缩减。
KNN最近邻分类：一种惰性学习法，涉及数据前处理、距离计算、预测概率的估计。

数据前处理：极值正规化 v’=(v-min)/(max-min)
距离计算(同时进行了极值正规化)：
- 曼哈顿距离（街区距离）：
  $d\left ( i,j \right )=\frac{\left |x_{i1}-x_{j1} \right |}{R_{1}}+ \frac{\left |x_{i2}-x_{j2} \right |}{R_{2}}+ \cdots +\frac{\left |x_{ip}-x_{jp} \right |}{R_{p}}$

最低0.47元/天解锁文章

关注

4
点赞
踩
40

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。