滑动间隔和窗口间隔必须是批处理间隔的整数倍。spark streaming会将一个批处理时间间隔收集到的数据汇总起来作为一批数据让系统来处理。对于窗口操作而言,其数据是一个窗口间隔内的,每隔一个滑动间隔滑动一次,一般情况下滑动间隔和批处理间隔一致。窗口操作会使得部分数据重复被计算,spark做了优化,会记录重复计算的结果。
正常情况下一个批处理间隔就够了,滑动间隔和窗口间隔与窗口操作有关
滑动间隔和窗口间隔必须是批处理间隔的整数倍。spark streaming会将一个批处理时间间隔收集到的数据汇总起来作为一批数据让系统来处理。对于窗口操作而言,其数据是一个窗口间隔内的,每隔一个滑动间隔滑动一次,一般情况下滑动间隔和批处理间隔一致。窗口操作会使得部分数据重复被计算,spark做了优化,会记录重复计算的结果。
正常情况下一个批处理间隔就够了,滑动间隔和窗口间隔与窗口操作有关