数据预处理

最新推荐文章于 2024-09-19 16:41:34 发布

两个鼻孔的猪

最新推荐文章于 2024-09-19 16:41:34 发布

阅读量439

点赞数

分类专栏：数据处理文章标签：数据挖掘数据预处理

数据处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.功能：数据预处理的过程就类似于将铁矿石冶炼成铁，在这之后就可以制作我们所需要的东西，去除一些杂质也就是不需要的数据（噪声），留下来有用的数据进行后面的功能。
2。数据来源：比如金融数据，手机，GPS，购物等，来源广泛，格式不同。
3.原因：真实的数据是很混乱的，真实的数据挖掘过程中，数据预处理所占时间可能是整个项目时间的70％，就比如调查问卷中答非所问，也比如样本过多，超过我的需求。缺失数据往往是较为常见的问题。缺的原因可能是设备损坏，或者没有提供该项服务数据，有的数据也是不适用的（NOT APPLiable）。缺失的种类：1.完全随机缺失：2.有条件的缺失：
4.检测离群点数据：1.相对的距离判断：该点a与其他相近数据的距离的平均值，另外的点b与他的相近数据的平均值的大小,通过算比较这两个距离的值来判断这两个点是否是同一类的点。
5.重复数据处理：有不同的数据集会含有相同的内容，但是其数据的格式不一样。就比如调查同一个人，一个数据集里面是写的这个人的真实姓名，而另一个数据集里面写的可能是外号，但这都描述的是一个人，处理数据的时候要删除冗余数据。解决：1.用滑动窗口（高度疑似重复的数据是挨着的）2.先排序，将相似的数据排在一起，再用一些关键的信息来区别。
6.数据转化：当数据已经基本完整了，就是要进行数据的格式转化，转化成我们能够处理的数据格式。就可以采用编码知识，但编码背后可能会产生一些问题。比如四种颜色的编码：这里我们可以用一个四位的数据，来表示，但这样的数据不能太多，否则维数太多。
7.采样过程：数据库越来越大，希望对数据进行采样来降低时间复杂度，在内存中算一些数据很快，但是从硬盘上面读数据需要很多时间，所以就想到了采样。在大数据中是由于数据太多了，所以要采样，只需要知道其规律。也可以用来调整分类比例，通过采样来对原始数据进行调整。
8.不平衡数据：不能识别关键的信息，只是强调准确率。整体的准确率不适合不平衡数据。看正类上的准确率和负类的准确率都考虑。
9.生成点：1.向上采样：一个点找到他临近的点，在这个区域内随机生成其他点。2.边缘点：比如一个很大的数据宽度，一般是最外面的边缘点是最有价值的，内部的点是没有特殊价值的，需要找到边缘点。就可以用一些方法比如密度，法向量等方法找到这些边缘点，会发现只要采样5％的点就可以和100％的点的数据一样准确。
10.数据标准化：将数据映射到0，1之间：（（原始数据-原始数据最小值）/（原始数据最大值-原始数据最小值））*（新的最大值-新的最小值）+新的最小值。当遇到高斯数据时：用偏均值，偏离多少个标准值，一般高斯数据中，偏离超过三个标准值的概率是很小的。偏离的标准值=（当前值-均值）/标准差。
11.数据描述：1均值：mean，特性：容易受到一两个特别极端的值的影响。比如平均收入：2.中位数：中间的那个数3.mode:频率，出现的频率4.variance:方差数据的离得远近。
12.数据的相关性：比如身高与体重：协方差公式，正相关，负相关。为0的时候，A,B没有线性关系，但不代表没有关系。
13.数据可视化：展现数据，一维二维较为简单，三维，四维的时候：BOX PLOTS：缺点，丧失了数据之间的联系，相当于一个性质用一个箱子表示出来，中间是中位数，箱子的宽度表示的是数据的紧凑程度。2.平行坐标：一一条线代表一个数据，该条线和其他性质的线的交点就是该值。软件：CITESPACE和GEPHI。
14.特征选择：例如一个人有很多特性，在选择的时候我就不需要全部的这些特性，而是挑选出我们最需要的属性。熵概念：描述变量的不确定性。熵值越大他的区分度越小，数据不确定性最大。H(X)=-∑p(x)logbP(x),当该值为1的时候，就是表示区分度很小，数据的不确定性最大。
15.特征子集选择：分支定界，比如有单调性关系，当存在两个子集，一个子集比另一个子集的能量小，那么就不用再对该子集再进行后面的测试计算。
16.特征提取：比如图像的边缘提取，不同的像素点之间做一个差值，如果差值比较大，该像素点就有可能是在边缘点或者变化点。
17.主成分选择：比如你看的图片怎么就知道是什么东西，三维物体投成二维图片也能区分。同样的物体从不同的角度看差别是很大的，不同的映射方法它的映射损失是很大的，有效信息需要大量保留。二维高斯数据分布，数据图像呈现椭圆形，这里面的方差就是一个比较好的信息，如果沿着某一个属性的方差比较大，就说这个属性很有价值，能够体现特征。选择区分度大的属性作为判断的属性。实际问题中的划分有的时候很难区别，陷入两难决定。如果将坐标轴移动，就可以变成最初看到的简单的例子。S(x)=1/(N-1)*XXT,S(Y)=1/(N-1)*YYT,这就是坐标变换，相当于移动了坐标轴。目标：在Y轴下的计算的协方差只有在对角线上不是0，其他都是0：Y=PX:P旋转矩阵在这里插入图片描述
18.线性判别分析：降维保留类的区分信息。不同的投影方式就可以很大程度的进行区分