数据标准化的原因和方法

数据标准化的原因和方法

原因

   由于不同变量常常具有不同的单位和不同的变异程度。   
   不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?   
   不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在 2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除**量纲影响**和**变量自身变异大小和数值大小**的影响,故将数据标准化。

方法

  1. 对变量的离差标准化
    离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即  x’ik=[xik -Min (xk)]/Rk     
    经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。   
    有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。
  2. 对变量的标准差标准化
    标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即  x’ik = (xik -xmean )/sk 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位 的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。
    但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影 响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。
  3. 先对事例进行标准差标准化,再对变量进行标准差标准化
    第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即 x’ik = (xik -x )/si     
    第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’’ik = (x’ik - ’k)/s’k     使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。
  4. 先对变量、后对事例、再对变量的标准差标准化
    这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:     
    第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即        x’ik = (xik - )/sk    
     第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即        x’’ik = (x’ik - ’i)/s’i     
     第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即        x’’’ik = (x’’ik - ’’k)/s’’k     进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据整理分析方法全文共2页,当前为第1页。数据整理分析方法全文共2页,当前为第1页。数据梳理主要是指对数据的结构、内容和关系进行分析 数据整理分析方法全文共2页,当前为第1页。 数据整理分析方法全文共2页,当前为第1页。 大多数公司都存在数据问题。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。 1 数据结构分析 1元数据检验 元数据用于描述表格或者表格栏中的数据数据梳理方法是对数据进行扫描并推断出相同的信息类型。 2 模式匹配 一般情况下,模式匹配可确定字段中的数据值是否有预期的格式。 3基本统计 元数据分析、模式分析和基本统计是数据结构分析的主要方法,用来指示数据文件中潜在的结构问题。 2 数据分析 数据分析用于指示业务规则和数据的完整性。在分析了整个的数据表或数据栏之后,需要仔细地查看每个单独的数据元素。结构分析可以在公司数据中进行大范围扫描,并指出需要进一步研究的问题区域;数据分析可以更深入地确定哪些数据不精确、不完整和不清楚。 1标准化分析 2 频率分布和外延分析 频率分布技术可以减少数据分析的工作量。这项技巧重点关注所要进一步调查的数据,辨别出不正确的数据值,还可以通过钻取技术做出更深层次的判断。 外延分析也可以帮助你查明问题数据。频率统计方法根据数据表现形式寻找数据的关联关系,而外延分析则是为检查出那些明显的不同于其它数据值的少量数据。外延分析可指示出一组数据的最高和最低的值。这一方法对于数值和字符数据都是非常实用的。 3业务规则的确认 3 数据关联分析 专业的流程模板和海量共享的流程图:[1] - 价值链图(EVC) - 常规流程图(Flowchart) - 事件过程链图(EPC) - 标准建模语言(UML) - BPMN2.0图 数据挖掘   数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程  利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。    分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为数据整理分析方法全文共2页,当前为第2页。数据整理分析方法全文共2页,当前为第2页。不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。  它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。    回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。   它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。    聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。   它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。    关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。  在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。    特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。    变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。    Web页挖掘。随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,
如果你的数据在进行归一化后再进行标准化时,数据范围超过1,则可能是由于归一化和标准化方法不适合你的数据分布。归一化通常将数据缩放到0到1之间,而标准化则将数据缩放为均值为0,标准差为1的分布。 如果你的数据范围超过1,有几种可能的原因: 1. 数据分布不适合归一化和标准化方法:归一化和标准化方法通常适用于具有较小范围的数据,例如特征值在0到1之间的情况。如果数据的范围较大或者存在异常值,那么这些方法可能不适用。在这种情况下,你可以考虑选择其他的数据预处理方法。 2. 归一化和标准化的顺序不正确:在将数据归一化后,如果再进行标准化,可能会导致数据范围超过1。这是因为标准化会根据数据的均值和标准差进行缩放,而归一化已经将数据缩放到0到1之间。确保按照正确的顺序应用归一化和标准化方法。 3. 数据中存在异常值:如果数据中存在异常值,这些异常值可能导致整体数据范围超过1。在进行数据预处理之前,建议先检查数据中是否存在异常值,并根据需要进行处理。 如果你希望归一化和标准化后的数据范围不超过1,你可以尝试以下方法: - 考虑使用其他的数据预处理方法,例如RobustScaler,它对异常值相对较稳健。 - 对数据进行特征缩放,而不是将其缩放到特定范围。例如,使用MinMaxScaler或StandardScaler的`transform()`方法而不是`fit_transform()`方法,以保持数据范围不超过1。 - 检查数据中是否存在异常值,并根据需要进行处理,例如通过删除或替换异常值。 请根据你的具体情况选择适当的方法,并根据需要进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值