使用 Python 进行数据预处理中用到的各个扩展库及对应函数 拉格朗日插值法,主成分分析等

一、数据清洗

            删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值。

 

  • 缺失值处理

 

           删除缺失值、数据插补、不处理

          Scipy拉格朗日插值法

                        from scipy.interpolate import lagrange#导入拉格朗日插值函数

         参考链接:https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.lagrange.html#scipy.interpolate.lagrange

                             

  • 异常值处理

         直接删除、视为缺失值、平均值填补、不处理

 

二、数据集成

           将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程

 

  • 实体识别

 

          统一不同源数据的矛盾之处:同名异义、异名异义、单位不统一

  • 冗余属性识别

同一属性多次出现、同一属性命名不一致导致重复

使用相关分析检测:给定两个数值型的属性A和B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性

计算相关系数

     Pearson 相关系数:分析两个连续变量之间的关系,且连续变量的取值服从正态分布。

     Spearman 秩相关系数:分析不服从正态分布的变量、分类或等级变量见的关联性。

     引入 Pandas 用于读取数据

     计算示例:

      data.corr( )[u'A的销量'] 

      代码示例: https://mp.csdn.net/postedit/102562564

      结果:列出所有产品销量与A销量的相关系数

 

三、数据变换

           对数据进行规范化处理,转换成适于挖掘的形式。

 

  • 简单函数变换

 

          平方、开方、取对数、差分运算,以将不具有正态分布的数据变换城具有正态分布的数据。

  • 规范化

         将数据进行标准化处理,按照比例进行缩放,使之落入一个特定的区域,消除指标之间的量纲和取值范围差异的影响。

 引入 Pandas 用于读取数据,numpy  用于计算数据

    最小—最大规范化:离差标准化,是对原始数据的线性变换,将数值映射到 [0,1] 之间。

                                      (不适用于数值集中且某个数值很大的情况)

                                    转化公式:   x*=(x-min)/(max-min)

    max:样本数据的最大值;           min:样本数据的最小值;      max-min为极差

   计算示例:( data-data.min() ) / ( data.max() -

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值