在执行job的时候 number of map task一直为1,资源利用率非常低。
参考网上一些资料
http://blog.csdn.net/wf1982/article/details/7200376
http://dennyglee.com/2013/04/26/optimizing-joins-running-on-hdinsight-hive-on-azure-at-gfs/
http://blog.csdn.net/jingling_zy/article/details/7321938
最后在每个query的配置文件里set mapred.max.split.size = xxx; 解决了map的问题。
但是随后发现reduce task number 又还是1。。。。继续研究中....