HDFS的块比磁盘的块大,目的是使(块的寻址时间/块的总读取时间)尽可能小。如果块设置得足够大,从磁盘传输数据的时间会明显大于块寻址时间。例如,假设寻址时间为10ms,而传输速度为100MB/s,为了使寻址时间仅占传输时间的1%,可将块大小设置为100MB。现在默认块大小多为128MB。
不适合将块大小设置得太大。MapReduce中的任务通常一次只处理一个块中的数据,因此如果任务数太少,少于集群中的节点数量,作业的运行速度就会比较慢。
不适合将块大小设置得太大。MapReduce中的任务通常一次只处理一个块中的数据,因此如果任务数太少,少于集群中的节点数量,作业的运行速度就会比较慢。