桶表
对立面的记录做一个hash计算,经过hash运算后, 然后对hash进行取模计算,比如mod 10,那么取模计算后,划分的每份的数据量是差不多的,
模的数据为桶,模10的话,那么就有10个桶,那么各个map进行计算的时间差不多,缺点:用业务字段来查询的话,没有什么效果。
进行表连接的时候查询数据方便;进行抽样查询时比较方便,按照桶表进行抽比较符合要求。
桶表
对立面的记录做一个hash计算,经过hash运算后, 然后对hash进行取模计算,比如mod 10,那么取模计算后,划分的每份的数据量是差不多的,
模的数据为桶,模10的话,那么就有10个桶,那么各个map进行计算的时间差不多,缺点:用业务字段来查询的话,没有什么效果。
进行表连接的时候查询数据方便;进行抽样查询时比较方便,按照桶表进行抽比较符合要求。
转载于:https://my.oschina.net/u/3230272/blog/864818