①列的裁剪,查询时只写我们需要的字段,提高效率
②两张表关联时,可以把数据量小的表写在前面,大表写在后面,这样在加载时会把小表加载到内存中,减少资源占用。
③多采用子查询,查出需要的数据,再与其他表关联
④写对表的过滤条件时,最好在map阶段就对表进行过滤,不要再reduce阶段过滤
①列的裁剪,查询时只写我们需要的字段,提高效率
②两张表关联时,可以把数据量小的表写在前面,大表写在后面,这样在加载时会把小表加载到内存中,减少资源占用。
③多采用子查询,查出需要的数据,再与其他表关联
④写对表的过滤条件时,最好在map阶段就对表进行过滤,不要再reduce阶段过滤