常见数据处理方法

最新推荐文章于 2023-04-12 17:24:57 发布

jyj019

最新推荐文章于 2023-04-12 17:24:57 发布

阅读量9.7k

点赞数 6

分类专栏：大数据综合算法综合文章标签：大数据数据分析

本文链接：https://blog.csdn.net/jyj1100/article/details/116779553

版权

大数据综合同时被 2 个专栏收录

31 篇文章 3 订阅

订阅专栏

算法综合

6 篇文章 4 订阅

订阅专栏

有时候更多数据处理从语言角度，调用不同api处理数据。但是从业务的角度想就很少了，最近从业务的角度了解了下常见数据处理的方法，总结如下：

标准化：标准化是数据预处理的一种，目的的去除量纲或方差对分析结果的影响。作用：1、消除样本量纲的影响；2、消除样本方差的影响。主要用于数据预处理

归一化：将每个独立样本做尺度变换从而使该样本具有单位LP范数。

主成分分析：主成分分析是将原来指标重新组合成一组新的互相无关的几个综合指标，从而达到降维的目的。

奇异值分解：特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。主要运用于降维类似PIC、压缩图像、潜在语义索引、去除噪音、将一个矩阵分解为3个矩阵、实现原始矩阵的维度下降。

分箱：分箱是根据一个或多个现有连续字段的值自动创建新字段的算子。即将数字输入转换为分类输入。

转置：将数据由行转换为为列。

重构：字段重排：该节点用于下游字段显示的自然顺序。此顺序将影响字段在多个位置的显示方式，如表格、列表和等。分为自定义排序和自动排序。

字段重命名：该节点用户可以根据自己对数据的理解对一个或多个字段的名称重命名。用户可过滤哪些字段在下一个节点不出现。在设为标志节点中不能对设为标志的字段进行重命名。

排序：排序节点可以根据一个或多个字段的值，按照升序或者降序对记录进行排序。排序时在表中选择作排序关键的字段。如果关键字段为数字字段，则适用于排序。

样本：可以选择记录的子集进行分析，或指定要丢弃的记录的比例。

可以选择记录的子集进行分析，或指定要丢弃的记录的比例。样本类型包括了如下几个

1) 分层样本。首先对样本分层，在分层的子集中独立选择（单个或多个）样本。

2) 系统化或n中取1抽样。如果随机选择难以实现，则可以系统（以固定间隔）或顺序方式抽取单元。将总体排序，每隔n个样本取一个。

选择：选择可以基于特定条件从数据流中选择或者丢弃记录子集。通过对输入数据的任意数据字段设置过滤条件，实现对数据集记录的过滤筛选。

区分：可以使用区分节点来查找或删除数据集中的重复记录。可以将第一个可区分记录传递到数据流，以删除重复的记录。或者丢弃第一个记录，将任何重复记录传递到数据流，以查找重复的记录。另外，可以在每个区分关键字值中为返回结果定义一种排序顺序。如果需要为每个区分关键字返回特定行，则必须在区分节点中对记录排序，而不能使用上游排序节点。

平衡：可以使用平衡节点修正数据集中的不平衡，以便它们符合指定的检验标准。例如，假设某个数据集只有两个值（low 或 high），并且 90% 的观测值为 low，而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难，因为它们倾向于只学习这些 low 的结果，而忽略 high 的结果（因为这些结果少的可怜）。如果数据平衡很好，low 和 high 结果具有大致相同的数量，那么模型将更有可能找出分辨这两个组的模式。这种情况下，平衡节点对于创建平衡指令，从而减少带有 low 结果的观测值数量非常有用。

平衡节点用于修正数据集中的不平衡，以便它们符合指定的检验标准。平衡是通过复制记录，然后根据指定的条件丢弃记录完成执行的。不符合任何条件的记录总是会被传递。因为此过程的工作模式为复制和/或丢弃记录，所以在下游操作中将丢失数据的原始顺序。在向数据流使用平衡功能之前，需要确保派生任何与序列相关的值。

汇总：汇总是一个经常用于减小数据集大小的任务。汇总是一个经常用于减小数据集大小的任务。执行汇总之前，应该花一些时间来清理数据，尤其要关注缺失值。在汇总节点上，可以指定以下内容。

1) 一个或多个关键字段

2) 一个或多个汇总字段

3) 一种或多种汇总模式（汇总类型）以用于每个汇总字段的输出

4) 指定默认汇总模式

追加：追加节点将结构类似的表，选取一个主表，将另外的表追加在主表后面（相当于增加行记录）。注意：要追加文件，字段测量级别必须相似。例如，名义字段无法附加测量级别为连续的字段，即字段类型的相同。

合并：输入多个记录字段，创建一个包含全部或部分输入字段的输出记录。

追加：追加节点将结构类似的表，选取一个主表，将另外的表追加在主表后面（相当于增加行记录）。当主表的字段比另一输入表中的字段多时，对于不完整的值使用Null值字符串($null$)。

过滤：可以重命名或排除字段。

导出：用户可以修改数据值并从现有数据中派生出新字段。可以根据一个或多个现有字段按6种方式创建出一个或者多个相同的新字段：

1) 公式。表达式。