Hadoop小文件

1、小文件怎么产生
1)通过某种手段采集数据采集过来
Flume 采集到HDFS的数据会有很多小文件 需要调优
Logstash
WebServer
2)MR(setPartitionerClass/setNumReduceTasks)/Hive/Spark(Core/SQL/Streaming)
ETL 产生很多小文件
stat(计算的东西又写入到表中) 数据仓库 分好几层 又是一堆小文件

解决???
删:原始数据
ETL:根据规定删除
Stat:

	合?
		SequenceFile:  优点,缺点
		CombineFIleInputFormat 文本,列式(ORC)
		Hive合并小文件的参数控制

	归档(合并小文件,为大文件) 为一个pksmall.har文件夹
		hadoop archive -archiveName pksmall.har -p /small /pksmallhar
	如果需要查看归档文件中的小文件
	    hadoop fs -ls har:///small /pksmallhar/pksmall.har
	如果要  MapReduce 执行作业只需要指定har:///small /pksmallhar/pksmall.har  Hadoop会自动去执行

discp

hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

远程拷贝文件
scp -r xxx hadoop@hadoop000:~/data

web页面: CDH CM->WebUI, HortonWorks: -> HDP

HDFS 删数据:
跨集群传输

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sunnyboy_4

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值