最近因资源分配重新分配,其中有一台datanode的机器退出。
今天重新对之前的hive脚本进行运行,发现快了许多。
之前这台机器是老机器(后面的datanode都是新机器)。不知道是不是因为这台datanode导致的差异,让我之前测试的时候速度没有提升许多。
这里就当随记吧。
后面将首先考虑如何让hadoop运行更稳定(其次再考虑速度),这里总结有以下几个方面:
第一:datanode磁盘空间满了该如何处理
第二:增加节点相关操作(这里还包括是否需要重新平衡数据,随着机器数量越来越多,平衡数据的时间将更长,这样是否会影响到正常的业务处理)
第三:删除节点该如何操作
第四:如何监控任务的运行状况,并且考虑对应的应对机制。