数据处理:分类数据和顺序数据

分类数据和顺序数据是什么

在数据建模过程中,很多算法无法直接处理非数值型的变量。另外,即使算法本身支持,很多算法实现包也无法直接基于字符串做矩阵运算。

这些类型的数据变量可以分为两类:分类数据和顺序数据

  • 分类数据:分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别中的男、女就是分类数据。分类数据中的值没有明显的高、低、大、小等包含等级、顺序、排序、好坏等逻辑的划分,只是用来区分两个或多个具有相同或相当价值的属性。例如:性别中的男和女,颜色中的红、黄和蓝,它们都是相同衡量维度上的不同属性分类而已。
  • 顺序数据:顺序数据只能归于某一有序类别的非数值型数据,例如用户的价值度分为高、中、低,学历分为博士、硕士、学士,这些都属于顺序数据。在顺序数据中,有明显的排序规律和逻辑层次的划分。例如:高价值的用户就比低价值的用户价值高(业务定义该分类时已经赋予了这样的价值含义)。

运用标志方法处理分类和顺序变量

分类数据和顺序数据要参与模型计算,通常都会转化为数值型数据。当然,某些算法是允许这些数据直接参与计算的,例如分类算法中的决策树、关联规则等。将非数值型数据转换为数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,其中的真值可用True、False或0、1的方式来表示。

为什么一定要做标志转换,不能直接用数字来表示

这是因为在用数字直接表示分类和顺序变量的过程中,无法准确还原不同类别信息之间的信息差异和相互关联性。

  • 针对分类数据:性别变量的属性值是男和女,无论用什么值来表示都无法表达出两个值的价值相等且带有区分的含义。如果用1和2区分,那么1和2本身已经带有距离为1的差异,但实际上二者是不具有这种差异性的,其他任意数字都是如此;如果用相同的数字来表示,则无法达到区分的目的。
  • 针对顺序数据:学历变量的属性值是博士、硕士和学士,可以用3-2-1来表示顺序和排列关系,那么如何表示3个值之间的差异是3-2-1而不是30-20-10或者1000-100-2呢?因此,任何一个有序数字的排序也都无法准确表达出顺序数据的差异性。
  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 滚动窗口方法是一种数据处理技术,它基于一定的滑动窗口大小来对一系列数据进行处理和分析。在滚动窗口方法中,滑动窗口的大小通常是固定的,并以一定的步幅进行移动。 在滚动窗口方法中,数据被分成许多窗口,每个窗口包含了一定数量的数据点。对于每个窗口,可以进行各种类型的数据分析,例如计算平均值、标准差、最大值和最小值等等。随着窗口向前移动,我们可以得到一系列的数据处理结果,这些结果可以用来研究数据的趋势和模式。 滚动窗口方法在许多领域都有广泛的应用,例如金融、工业控制、信号处理数据挖掘等。它可以帮助我们更好地理解数据,发现数据中的规律和异常情况,从而提高数据的分析和预测能力。 ### 回答2: 滚动窗口方法(Sliding Window Method)是一种常用的数据处理技术,主要用于处理流式数据或连续数据流。它通过将数据分段处理,每次只处理一定大小的数据窗口,在窗口滑动时进行增量计算,从而减少计算复杂度和内存消耗。 滚动窗口方法适用于需要实时处理数据的场景,如实时监控系统、实时数据分析等。其基本原理是将连续的数据流分为若干个窗口,每个窗口包含一定数量的数据。随着数据流的不断传入,窗口会顺序滑动,并对窗口中的数据进行计算和处理。 该方法的具体步骤如下: 1. 确定窗口大小:根据需要处理数据量和实时性要求确定窗口的大小。通常窗口大小会根据实际情况进行调整,较小的窗口会带来更快的响应速度,但可能会影响数据的准确性。 2. 窗口初始化:在开始处理数据流之前,需要初始化一个空的窗口,并根据窗口大小确定其容量。 3. 窗口滑动:当有新的数据到达时,窗口会滑动一个位置,即将最早的数据移除,同时添加最新的数据。这样可以保持窗口大小不变,并保证数据的连续性。 4. 增量处理:每次窗口滑动时,只需要对新进入的数据进行增量计算,避免对整个数据集重新计算。这样可以节省计算资源,并提高处理效率。 5. 输出结果:根据业务需求,可以在窗口滑动后输出相关结果,如统计信息、预测结果等。 滚动窗口方法在实时数据处理中具有广泛的应用,可以用于流式数据的实时分析、实时推荐系统、实时异常检测等场景。它能够有效处理大规模的数据流,并提供准确的实时结果,对于实时决策和实时监控具有重要的意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值