数据预处理-样本分布(正态分布、偏态分布)

数据预处理-样本分布(正态分布、偏态分布)

转载自:
https://blog.csdn.net/lanchunhui/article/details/53239441
https://www.cnblogs.com/gczr/p/6802998.html

一、何为数据的偏态分布?

频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。

偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。

如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。

峰左移,右偏,正偏 偏度大于0

峰右移,左偏,负偏 偏度小于0
在这里插入图片描述
在这里插入图片描述

二、构建模型时为什么要尽量将偏态数据转换为正态分布数据?

数据整体服从正态分布,那样本均值和方差则相互独立。正态分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。总之, ML中很多model都假设数据或参数服从正态分布。

三:如何检验样本是否服从正态分布?

可以使用Q-Q图来进行检验
https://baike.baidu.com/item/Q-Q图

统计学里Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。首先选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。
如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。

由于P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.

四 :如果不是正态分布怎么办?

数据右偏的话可以对所有数据取对数、取平方根等,它的原理是因为这样的变换的导数是逐渐减小的,也就是说它的增速逐渐减缓,所以就可以把大的数据向左移,使数据接近正态分布。
如果左偏的话可以取相反数转化为右偏的情况。

五、Box-Cox

https://blog.csdn.net/lcmssd/article/details/80179102?utm_source=blogxgwz0
参加kaggle比赛过程中,看到很多人在预处理阶段会对某些特征X做如下操作 Y = log(1+X), 说是可以把这个特征的分布正态化, 使其更加符合后面数据挖掘方法对数据分布的假设

y = (x**lmbda - 1) / lmbda,  for lmbda > 0
    log(x),                  for lmbda = 0

在这里插入图片描述

上图lambda取不同值时, (X,Y)的曲线, boxcox变换的工作原理就在这些曲线的斜率中: 曲线斜率越大的区域,则对应区域的X变换后将被拉伸, 变换后这段区域的方差加大; 曲线斜率越小的区域, 对应区域的X变换后将被压缩, 变换后这段区域的方差变小.
右图中看出lambda = 0时, 取值较小的部分被拉伸, 取值较大的部分被压缩; lambda > 1时则相反

http://onlinestatbook.com/2/transformations/box-cox.html

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据预处理技术 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 学习了⽜琨⽼师的课程后整理的学习笔记,⽤于⽇后复习 ⼀、⼤数据预处理的⼏个步骤 ⼀、⼤数据预处理的⼏个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.⼤数据预处理 ⼆、数据预处理 ⼆、数据预处理 现实中的数据⼤多是"脏"数据: 不完整 缺少属性值或仅仅包含聚集数据 含噪声 包含错误或存在偏离期望的离群值 ⽐如:salary="-10",明显是错误数据 不⼀致 ⽤于商品分类的部门编码存在差异 ⽐如age="42"Birthday="03/07/1997" ⽽我们在使⽤数据过程中对数据有如下要求: ⼀致性、准确性、完整性、时效性、可信性、可解释性 由于获得的数据规模太过庞⼤,数据不完整、重复、杂乱,在⼀个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。 三、数据清洗 三、数据清洗 1.缺失值的处理: 忽略元组:若有多个属性值缺失或者该元祖剩余属性值使⽤价值较⼩时,应选择放弃 ⼈⼯填写:该⽅法费时,数据庞⼤时⾏不通 全局常量填充:⽅法简单,但有可能会被挖掘程序愚以为形成了⼜去的概念 属性中⼼度量填充:对于正常的数据分布⽽⾔可以使⽤均值,⽽倾斜数据分布应使⽤中位数 最可能的值填充:使⽤回归、基于推理的⼯具或者决策树归纳确定。 2.噪声数据与离群点: 噪声:被测量的变量的随机误差或者⽅差(⼀般指错误的数据) 离群点:数据集中包含⼀些数据对象,他们与数据的⼀般⾏为或模型不⼀致。(正常值,但偏离⼤多数数据) 分箱(binning):通过考察数据周围的值来光滑有序数据值,这些有序的值被分布到⼀些"桶"或箱中,由于分箱⽅法只是考虑近邻的值, 因此是局部光滑。 分箱的⽅法: 等宽分箱:每个"桶"的区间宽度相同 等深分箱:每个"桶"的样本个数相同 回归(regression):⽤⼀个函数拟合数据来光滑数据。 线性回归找出拟合两个属性(变量)的最佳直线;多元线性回归涉及多个属性,将数据拟合到多维曲⾯ 下图即对数据进⾏线性回归拟合: 离群点: 2.1 离群点的分类 全局离群点:个别数据离整体数据较远 集体离群点:⼀组数据与其他数据分布⽅式不同 情景离群点 2.2 离群点检测的⽅法 基于统计的离群点检测:假设给定的数据集服从某⼀随机分布(如正态分布等),⽤不⼀致性测试识别异常。 如果某个样本点不符合⼯作假设,那么认为它是离群点;如果它符合备选假设,则认为它是符合某⼀备选假设分布的离群点。 基于密度的局部离群点检测:通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。 基于距离的离群点检测:如果样本空间D⾄少有N个样本点与对象O的距离⼤于d,那么对象O是以⾄少N个样本点和距离d为参数的基于距 离的离群点。 基于偏差的离群点检测:通过检查⼀组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。 2.3 传统离群点检测的缺点: 基于统计的算法:不适合多维空间,预先要知道样本空间中数据集的分布特征 基于距离的算法:参数的选取⾮常敏感,受时间复杂度限制,不适⽤于⾼维稀疏数据集。 基于偏差的算法:实际应⽤少,在⾼维数据集中,很难获得该数据集的主要特征。 四、数据集成 四、数据集成 1.数据属性: 数据属性: 标称属性:属性值是⼀些符号或事物的名称,经常看做分类属性,如头发颜⾊:黄⾊、⿊⾊、棕⾊ ⼆元属性:是⼀种标称属性,只有两个类别 0或1 true or false 序数属性:其可能的值时间具有有意义的序或秩评定,如客户满意度:0-很满意 1-不能太满意... 数值属性:定量的,可度量的量,⽤整数换实数值表⽰。 2.离散属性与连续属性 离散属性与连续属性 1.离散属性:具有有限或⽆限可数个值,可以是数值属性,如性别、员⼯号 2.连续属性:⾮离散的,⼀般⽤浮点变量表⽰。 3.数据集成 数据集成 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从⽽为企业提供全⾯的数据共享。数据集成时,模式集成和 对象匹配⾮常重要,如何将来⾃于多个信息源的等价实体进⾏匹配即实体识别问题。 在进⾏数据集成时,同⼀数据在系统中多次重复出现,需要消除数据冗余,针对不同特征或数据间的关系进⾏相关性分析。 相关性分析时⽤⽪尔逊相关系数度量, ⽤于度量两个变量X和Y之间得相关(线性相关),其值介于1和-1之间。 五、数据规约 五、数据规约 1.数据规约策略: 维规约:减少考虑的随机变量或属性的个数,或把原数据变换或投影到更⼩的空间,具体⽅法:⼩波变换、主成分分析等。 数量规约:⽤替代的、较⼩的数据表⽰形式替换原数据 具体⽅法包括:抽样和数据⽴⽅体聚集 数据压缩:⽆损压缩:能从压缩后的数据重构恢复原来的数据,
数据分析之数据质量分析和数据特征分析 数据分析之数据质量分析和数据特征分析 1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要⼀环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模 型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据⼀般是指不符合要求,以及不能直接进⾏相应分析的数据。在常见的数据挖掘⼯作中,脏数据 包括: (1)缺失值; (2)异常值; (3)不⼀致的值; (4)重复数据及含有特殊符号(如#、¥、*)的数据。 1.1缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产⽣的原因及影响等⽅⾯展开 分析。 (1)缺失值产⽣的原因 1)有些信息暂时⽆法获取,或者获取信息的代价太⼤。 2)有些信息是被遗漏的。可能是因为输⼊时认为不重要、忘记填写或对数据理解错误等⼀些⼈为因素⽽遗漏,也可能是由于数据采集设备的故 障、存储介质的故障、传输媒体的故障等⾮⼈为原因⽽丢失。 3)属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对⼀些对象来说某些属性值是不存在的,如⼀个未婚者的配偶姓名、⼀个⼉童 的固定收⼊等。 (2)缺失值的影响 1)数据挖掘建模将丢失⼤量的有⽤信息。 2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。 3)包含空值的数据会使建模过程陷⼊混乱,导致不可靠的输出。 (3)缺失值的分析 使⽤简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。 1.2异常值分析 异常值分析是检验数据是否有录⼊错误以及含有不合常理的数据。忽视异常值的存在是⼗分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会给结果带 来不良影响;重视异常值的出现,分析其产⽣的原因,常常成为发现问题进⽽改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也 称为离群点,异常值的分析也称为离群点分析。 (1)简单统计量分析 可以先对变量做⼀个描述性统计,进⽽查看哪些数据是不合理的。最常⽤的统计量是最⼤值和最⼩值,⽤来判断这个变量的取值是否超出了合理 的范围。例如,客户年龄的最⼤值为199岁,则该变量的取值存在异常。 (2)3σ原则 如果数据服从正态分布,在3σ原则下,异常值被定义为⼀组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3σ 之外的值出现的概率为P("x-µ">3σ) 0.003,属于极个别的⼩概率事件。如果数据不服从正态分布,也可以⽤远离平均值的多少倍标准差来描述。 (3)箱形图分析 箱形图提供了识别异常值的⼀个标准:异常值通常被定义为⼩于QL-1.5IQR或⼤于QU+1.5IQR的值。QL称为下四分位数,表⽰全部观察值中有 四分之⼀的数据取值⽐它⼩;QU称为上四分位数,表⽰全部观察值中有四分之⼀的数据取值⽐它⼤;IQR称为四分位数间距,是上四分位数QU与 下四分位数QL之差,其间包含了全部观察值的⼀半。箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有⼀定的鲁棒性:多达 25%的数据可以变得任意远⽽不会很⼤地扰动四分位数,所以异常值不能对这个标准施加影响。由此可见,箱形图识别异常值的结果⽐较客观,在 识别异常值⽅⾯有⼀定的优越性,如图所⽰。 在平常的数据分析过程中可以发现,可能其中有部分数据是缺失的,但是如果数据记录和属性较多,使⽤⼈⼯分辨的⽅法就很不切合实际,所 以这⾥需要编写程序来检测出含有缺失值的记录和属性以及缺失率个数和缺失率等。同时,也可使⽤箱形图来检测异常值。R语⾔检测代码如下所 ⽰。 # 设置⼯作空间 # 把"数据及程序"⽂件夹拷贝到F盘下,再⽤setwd设置⼯作空间 setwd("F:/数据及程序/chapter3/⽰例程序") # 读⼊数据 saledata <- read.csv(file = "./data/catering_sale.csv", header = TRUE) # 缺失值检测 并打印结果,由于R把TRUE和FALSE分别当作1、0,可以⽤sum()和mean()函数来分别获取缺失样本数、缺失⽐例 sum(complete.cases(saledata)) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) saledata[!complete.cases(saledata), ] # 异常值检测箱线图 sp <- boxplot(saledata$"销量", boxwex = 0.7) title("销量异常值检测箱线图") xi <- 1.1 sd.s <-
大数据中的数据预处理技术分析 大数据中的数据预处理技术分析全文共2页,当前为第1页。 摘要:随着信息技术的飞速发展,大数据技术也快速发展并且应用越来越广泛。信息技术的飞速发展为数据的收集和分析提供了强大的技术基础,并且随着数学与计算机科学的交汇,大数据技术的应用价值越来越大。 本文根据大数据技术的数据预处理要求,简要论述了大数据的预处理技术。分析结果表明,对数据进行预处理,可以更准确的获得有价值的数据。 关键词:大数据;数据预处理;技术;分析 一、大数据技术 1.概念 大数据技术,是指一种在不使用传统随机理论进行数据分析的情况下对数据进行集成分析和处理的方法,主要是在数据处理方面面临挑战。由于实际的生产和寿命,会生成并存储大量数据,这些数据可以表征该过程。您会看到使用科学合理的数据处理方法时,会挖掘它们的唯一值并将其用于优化。控制和决策制定并加深数据的价值。大数据由于其样本量大,准确性高和出色的科学质量而受到人们的欢迎。同时,大数据处理技术具有高速,多样化,高价值和可靠性。 2.大数据技术的处理流程 根据现有的一般大数据处理技术。第一步是数据的收集,这是大数据的数据来源,并且主要依靠信息技术(例如传感器网络)来实现数据收集。下一步是预处理数据,但是由于实际收集的数据存在噪音,冗余等问题,因此需要对其进行预处理以进行计算和分析,这也是本文的重点。第三步是存储正常检索的数据矩阵。第四步是数值分析,它是利用数据值分析的特定模型。第五步是显示结果,以简单易懂的形式将数据展示出来。从整个大数据处理过程的角度来看,数据预处理技术的水平决定了数据的可靠性和完整性,并在后续数据分析中起着重要作用。预处理过程中使用了许多数学计算模式。接下来,我们重点介绍相关数学转换和大数据预处理的数学分析方法。 二、数据预处理技术分析 1.需求分析 在数据采集的过程中会出现一些问题,例如测量采集设备的精度不足,数据传输过程中的环境干扰,数据中的环境噪声以及对手动输入数据的篡改,会形成不需要的或者错误的数据。这些原始数据存在以下问题集:(1)混乱。数据仅存储在数据集中,缺乏统一的定量和转换标准,因此无法进行数据的定量视觉分析。(2)重复。数据具有多个相同的物理描述和特征,尤其是在分析数据的方向上存在重复,这构成了数据重复和冗余数据的累积。这对样品的分析是有害的。例如,如果输入数据,则多次输入同一实体将导致重复数据。(3)模糊。实验模型或实际系统设计必定会存在一些漏洞和缺陷,从而使其物理特性不清楚或混乱。(4)丢失。发送或记录数据时发生错误,并且数据丢失。由于数据集的复杂性,数据的准确性和有效性极大地影响了挖掘学习的准确性和有效性。因此,对数据进行预处理成为一项重要的预分析任务。有很多预处理数据的方法,包括清除数据,选择数据和转换数据。 2.数据清洗 由于各种问题,实际收集的数据无法直接用于价值分析。这些不确定的数据会严重影响大数据数据分析的准确性,并且在关键情况下会失去分析结果的实际意义。出于某些目的需要进行预处理。数据清理主要处理不合规的数据,例如重复数据项,噪声数据项和丢失的数据项。数据重复会导致数据挖掘模型发生变化,应予以消除,但是检测重复数据的有效方法包括使用基于排序/合并原理的基本邻接排序算法。在实际的生产和生活中,数据不可避免地会有很多漏洞。这是在现实世界中生成的数据集的特征,只有某些算法才能补偿该错误。一般的缺失值预处理方法为:(1)直接删除空白数据项。该方法的优点是明显,高效且技术含量较低。但是,对于样本量不够大的数据集,会出现较大的偏差。(2)使用填充技术来填充缺失值。由于直接删除空值可能会对数据造成不可挽回的损害,因此我们使用填充算法来完成数据,但不容易产生偏差。统计方法:标准正态分布表明,可以使用数据的算术平均值代替空缺值。这是最简单,最常用的方法。分类法:面对大数据集时,您可以先对其分类,然后再分析和检查小数据集。分类方法对于样本训练具有很好的容忍性,但往往会过度学习。我们将需要设置更多的测试样本,并使用更多的算法进行检测和挖掘,因此在此不再赘述。 3.数据选样 数据选择分为简单随机选择和分层样本选择。 这是数学中的典型统计问题。 其中,简单随机样本选择不包括替换样本选择和替换样本选择。简单的随机样本选择算法易于实现。可以结合使用排列和概率知识以及中学编程知识来进行操作。通过分层样本选择获得的数据子集适用于数据挖掘。 4.数据变换 数据转换的目的是将数据转换为特定挖掘所需的格式。通常需要将其与实际数据挖掘算法结合起来以执行特定的数据转换。通常,它可以分为简单功能转换和统一标准转换。数据转换的重点是将难以表达和计算的原始不规则性转换为规范化的可分析数据,从而消除了由于收集和存储数据而造成的缺陷。尝试消除数据转换的基础是简单的功能 换,它通过

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值