对 hive有些了解的人都会知道,hive 会将 SQL 语句最终转化成分布式执行的 mapreduce 任务计划。对于大数量集的数据启动 mapreduce 所花费的时间是渺小的
因为数据量大,并且分布再不同的机器上,在不同的机器上处理,这样做是 hive 的优势之一。然而当处理小数量,并且数据都聚集再一台机器上时,那么启动本地模式是非常有意的,不可避免的启动 mapreduce,将数据拉回客户端,本地处理,这样减少了分处理后合并花费的时间。
启动本地模式,需要配置如下参数:
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行。
hive.exec.mode.local.auto.inputbytes.max 最大输入数据量,当输入数据量小于这个值的时候将会启动本地模式,默认是 128M。
hive.exec.mode.local.auto.tasks.max 最大输入文件个数,当输入文件个数小于这个值的时候将会启动本地模式。