数据规约是指在数据处理过程中,通过对原始数据进行规范化、统一化、去重和约减等操作,使数据更加一致、统一和有意义。
数据规约的策略包括:
标准化:对数据进行统一的格式转换,使数据在不同的系统或应用中具有相同的表示方式。
去重:对数据进行去重操作,使数据库中不同的数据项只出现一次。
约减:通过删除或合并重复的数据项,减少数据的数量。
归一化:对数据进行归一化处理,使所有数据的取值范围在同一范围内。
编码:对数据进行编码,使数据更加紧凑,方便存储和传输。
压缩:对数据进行压缩,使数据体积更小,方便存储和传输。
过滤:对数据进行过滤,只保留满足