数据挖掘与数据话运营实战 - 笔记

最新推荐文章于 2021-02-08 17:52:02 发布

此心光明-超然

最新推荐文章于 2021-02-08 17:52:02 发布

阅读量303

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_43364172/article/details/93338771

版权

数据分析专栏收录该内容

0 篇文章 0 订阅

订阅专栏

异常值判断：

对于类别型变量，如果某个出现频率太小，太稀有，就可能是异常值
对于区间型变量，可以从小到大排，比如最大的前0.1%就是异常值。或者，超过n个标准差的是异常值

数据转换

对于区间型变量，如果分布不光滑（或有噪声），不对称分布

目的：

产生衍生变量
改善变量分布特征（不对称）
区间型变量的分箱转换
针对区间型变量的标准化操作

改善分布的措施

取对数
开平方根
取倒数
开平方
取指数

分箱转换（Binning）就是把区间型变量转换成次序型变量。目的：

降低变量（主要是自变量）的复杂性，简化数据
提升自变量的预测能力

数据的标准化（Normalization）转换主要目的是将数据按比例缩放，使之落入一个小的区间范围内，使得不同的变量经过标准化处理后可以有平等分析和比较的基础
最简单的数据标准化转换是Min-Max标准化，也叫离差标准化。是对原始数据进行线性变换，使得结果在[0, 1]区间

筛选输入变量

最简单常用的是通过自变量之间的线性相关性指标进行初步筛选。其中，尤其以Pearson Correlation最为常用。它主要用于比例型变量、区间型变量与区间型变量，以及二元变量与区间型变量之间的线性关系描述。
r=x与y的协方差/x的标差与y的标差的乘积
|r|<0.3，低度线性相关;大于0.8是高度相关。大于0.6以上的多个变量，保留一个就可以了。
如果r等于0,表明不存在线性关系，不能排除变量之间的其他相关关系，比如曲线关系等。

R平方（R-Square），借鉴多元线性回归的分析算法，判断和选择对目标变量有重要预测意义及价值的自变量。
R平方表示模型输入的各自变量在多大程度上可以解释目标变量的可变性，它的取值在0-1之间，越大，说明模型的拟合越好。

**卡方检验（Chi-Square Statistics）**属于非参数检验，主要用来度量类别型变量，包括次序型变量等定性变量直接的关联性以及比较两个或两个以上的样本率。其基本思想是比较理论频数和实际频数的吻合程度或拟合度。它是筛选自变量的重要方法。

当目标变量是二元变量，自变量是区间型变量时，可以通过IV（Information Value）和WOE（Weight of Evidence）进行自变量的判断和取舍。应用的时候，需要把区间型自变量转换成类别型自变量。

聚类算法

划分方法：

K均值（K-Means）。在给定一个数据集和需要划分的数目k后，该算法可以根据某个距离函数反复把数据划分到k个簇中，直到收敛为止。
K中心点（K-Medoids），用最接近簇中心的一个对象来表示划分的每个簇。
层次方法：凝聚层次聚类和分裂层次聚类。

K-Means最噪声和异常值非常敏感。可以直接删除异常值或者随机抽样。

数据的标准化，标差标准化（Z-Score标准化）最常用，经过这种方法处理后的数据符合标准正态分布（均值为0,标差为1）。

此心光明-超然

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与数据话运营实战 - 笔记

异常值判断：对于类别型变量，如果某个出现频率太小，太稀有，就可能是异常值对于区间型变量，可以从小到大排，比如最大的前0.1%就是异常值。或者，超过n个标准差的是异常值数据转换对于区间型变量，如果分布不光滑（或有噪声），不对称分布目的：产生衍生变量改善变量分布特征（不对称）区间型变量的分箱转换针对区间型变量的标准化操作改善分布的措施取对数开平方根取倒数开平方取指数...
复制链接

扫一扫

专栏目录