概要模式
-
数值概要
目的:基于某个键将记录分组,并将每个分组做一系列的聚合值,从而得到较大数据集的高层次试图
适用场景:
- 要处理的数据是数值数据或者计数
- 数据可以按照某些特定的字段分组
已知应用:
- 单词计数
- 记录计数
- 最大值/最小值/计数
- 平均值/中位数/标准差
-
倒排索引概要
目的:产生一个数据集的索引以提供更快的搜索或数据丰富能力
适用场景:通常用在需要快速搜索查询响应的场景。可以对一个查询结果做预处理并存储在一个数据库中。
-
计数器计数
目的:得到大数据集计数概要的一种高效方法
适用场景:
- 在一个大数据集上收集计数或汇总
- 需要创建的计数器数量很少——两位数字以内
已知应用:
- 统计记录数
- 统计小数量级的唯一实例计数
- 汇总
过滤模式
-
过滤
目的:过滤掉不感兴趣的记录并将需要的记录保留下来
适用场景:使用过滤的唯一必要条件就是数据可以被解析成“记录”,并可以通过非常特定的准则来确定他们是否被保留
已知应用:
- 近距离观察数据
- 跟踪某个事件的线索
- 分布式grep
- 数据清理
- 简