1.为什么hadoop 不适合小文件读取?
FileInputFormat只划分比HDFS block大的文件,也就是说,划分的内容可能是这个文件,或者这个文件的小部分。
如果比block小将不会被划分,所以小文件只能被当成一个split,并只分配一个Map任务
2.liunx中查看端口是否被占用
netstat -apn|grep 端口号
1.为什么hadoop 不适合小文件读取?
FileInputFormat只划分比HDFS block大的文件,也就是说,划分的内容可能是这个文件,或者这个文件的小部分。
如果比block小将不会被划分,所以小文件只能被当成一个split,并只分配一个Map任务
2.liunx中查看端口是否被占用
netstat -apn|grep 端口号