1.说明
-
该学习笔记仅供个人学习使用,不代表任何官方指导或意见。
-
该学习笔记为个人原创,转载请征得博主同意,或声明原文链接。
-
有需要其他资料或有其他问题可私信或者加qq2356081476,这不是我的义务但也欢迎各位朋友与我讨论相关问题,共同进步。
-
错字,语法,排版等问题请见谅。
-
这一条是和后来加上来的,建议先看目录中的小结部分,因为笔记是做着做着笔者自己也有一些体会和理解,这些一般我就放到小结部分去了。但是千万别觉得看了小结就相当于看了全文了,理解需要逐步深入。
2.作文目的
2020年寒假有试题研究风电功率分析及波动分析。其中有需要学习数据探索、数据清洗、回归分析等问题。在各大网站(如CSDN、知乎、知网、百度)所查资料较为松散,故作此学习笔记以适用个人学习及复习。
3.数据探索
3-1.定义
对样本数据集的整体结构和规律特征进行分析的过程。
3-2.意义
- 有助于选择数据清洗方法。
- 有助于选择合适建模方法。
3-3.方法
通过检验数据集的数据质量、绘制图表、计算某些特征量等手段。及数据质量分析,数据特征分析两种。
3-3-1.数据质量分析
3-3-1-1.定义
检查原始数据中是否存在“脏”数据。
脏数据一般是指不符合要求, 以及不能直接进行相应分析的数据。在常见的数据挖掘工作中, 脏数据包括如下内容(排名不分先后)。
1.缺失值 2.异常值 3.不一致的值
- 缺失值:
顾名思义,数据集中没有的,缺失的值。 - 异常值:
对客观事物、业务等已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果。
例如:
人的年龄300岁,已经属于远超认知。或者是个负值,完全不符合客观事物。 - 不一致的值
简单理解为前后矛盾,有冲突。如果一张表连续前后给了两次,可能就会出现。
例如:
①.有一处 a = 10 a=10 a=10,另外一处 a = 100 a=100 a=100
②.调查对象说自己开车上班,又报告没有汽车。
3-3-1-2.意义
- 是分析数据中有效数据准备过程中的一个重要环节。
- 是数据清洗的前提。
- 是为数据挖掘的分析的有效性和准确性的基础。
注:
1. 数据质量分析的意义与数据探索的意义界限模糊,建议集中记忆。
3-3-1-3.判别(分析)方法
对脏数据(3种)的判别。
注意每用以下方法判断出所有异常值后,修改其中之一后要重新计算得到的二次的所有异常值才能进行二次修改。就是说不能修改了一个之后接着修改第二个。
3-3-1-3-1.异常值判别:
在异常值的定义的例子中是我们客观很容易就能看见异常值,这些很容易判别。有时候就会碰到很难判别的异常值。人类年龄300岁很容易看出来,200岁也很容易。100岁呢,这就不一定了。假如在数据集中90-110岁的人不少,那可能100岁不是异常的。假如数据集中90-110岁的人很少,就ta100岁的老者一位。那可能就是异常值。显然一群年轻人中站着一位老者不太”正常“。这就需要我们用一些数学统计的方法。
Ⅰ.3σ准(原)则
注意条件:数据服从于正态分布1。如果不满足此条件结果未必可信。
简述:某个值远离平均值三倍标准差,那么这个值是异常值。
数学公式:|x-μ|>3σ
其中x表示某个值,μ表示平均值,σ表示标准差。
Ⅱ.箱形(型)图
注意条件:无。
按下述步骤画出一个箱型图:
①.将所有数据从小到大排序。设有n个数据。
②. n 4 \frac{n}{4} 4n取整所在的值为下四分位设为L。
③.