数据挖掘与数据话运营实战 - 笔记

异常值判断:

对于类别型变量,如果某个出现频率太小,太稀有,就可能是异常值
对于区间型变量,可以从小到大排,比如最大的前0.1%就是异常值。或者,超过n个标准差的是异常值

数据转换

对于区间型变量,如果分布不光滑(或有噪声),不对称分布

目的:

  • 产生衍生变量
  • 改善变量分布特征(不对称)
  • 区间型变量的分箱转换
  • 针对区间型变量的标准化操作

改善分布的措施

  • 取对数
  • 开平方根
  • 取倒数
  • 开平方
  • 取指数

分箱转换(Binning)就是把区间型变量转换成次序型变量。目的:

  • 降低变量(主要是自变量)的复杂性,简化数据
  • 提升自变量的预测能力

数据的标准化(Normalization)转换主要目的是将数据按比例缩放,使之落入一个小的区间范围内,使得不同的变量经过标准化处理后可以有平等分析和比较的基础
最简单的数据标准化转换是Min-Max标准化,也叫离差标准化。是对原始数据进行线性变换,使得结果在[0, 1]区间

筛选输入变量

最简单常用的是通过自变量之间的线性相关性指标进行初步筛选。其中,尤其以Pearson Correlation最为常用。它主要用于比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。
r=x与y的协方差/x的标差与y的标差的乘积
|r|<0.3,低度线性相关;大于0.8是高度相关。大于0.6以上的多个变量,保留一个就可以了。
如果r等于0,表明不存在线性关系,不能排除变量之间的其他相关关系,比如曲线关系等。

R平方(R-Square),借鉴多元线性回归的分析算法,判断和选择对目标变量有重要预测意义及价值的自变量。
R平方表示模型输入的各自变量在多大程度上可以解释目标变量的可变性,它的取值在0-1之间,越大,说明模型的拟合越好。

**卡方检验(Chi-Square Statistics)**属于非参数检验,主要用来度量类别型变量,包括次序型变量等定性变量直接的关联性以及比较两个或两个以上的样本率。其基本思想是比较理论频数和实际频数的吻合程度或拟合度。它是筛选自变量的重要方法。

当目标变量是二元变量,自变量是区间型变量时,可以通过IV(Information Value)和WOE(Weight of Evidence)进行自变量的判断和取舍。应用的时候,需要把区间型自变量转换成类别型自变量。

聚类算法

划分方法:

  • K均值(K-Means)。在给定一个数据集和需要划分的数目k后,该算法可以根据某个距离函数反复把数据划分到k个簇中,直到收敛为止。
  • K中心点(K-Medoids),用最接近簇中心的一个对象来表示划分的每个簇。
    层次方法:凝聚层次聚类和分裂层次聚类。

K-Means最噪声和异常值非常敏感。可以直接删除异常值或者随机抽样。

数据的标准化,标差标准化(Z-Score标准化)最常用,经过这种方法处理后的数据符合标准正态分布(均值为0,标差为1)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值