小文件
小文件的存储,对HDFS是致命的,默认小文件的定义,各个公司是不同的,可以从自己公司的日常文件中,随机挑选1000个文件,以此来定义小文件的大小。
小文件危害:
1、NameNode需要的内存大大增大,增加NameNode压力,这样会限制了集群的扩展。
2、在HDFS中,小文件的读写处理速度要远远小于大文件
3、Hive中,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。
小文件
小文件的存储,对HDFS是致命的,默认小文件的定义,各个公司是不同的,可以从自己公司的日常文件中,随机挑选1000个文件,以此来定义小文件的大小。
小文件危害:
1、NameNode需要的内存大大增大,增加NameNode压力,这样会限制了集群的扩展。
2、在HDFS中,小文件的读写处理速度要远远小于大文件
3、Hive中,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。