- 博客(4)
- 资源 (10)
- 收藏
- 关注
原创 hadoop跨KDC集群离线割接数据(hbase,hive元数据恢复)
hbase表跨集群迁移未开启kerberos集群:hadoop fs -copyToLocal /hbase/data/default/user_feature /data/tocdh516data/user_featurescp -r user_feature/ root@X.X.X.X:/data/hbase_data##新集群hbase用户执行hadoop fs -copyFromLocal /data/hbase_data/user_feature /hbase/data/defaul
2020-08-13 11:31:19 254
原创 hbase Region-In-Trasition解决方法
Region-In-Trasition解决方法 (region掉入长时间的RIT状态,balancer无法开启,region分布不均衡)zookeeper中 rmr /hbase/region-in-transition 目录删除后balance_switch truebalancerhbase balancer正常终极方案 删掉region下 recovered.edits文件hadoop fs -rm -r /hbase/data/default/*/*/recovered.edits/*
2020-08-13 11:21:14 172
原创 hive开窗
distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此,distribute by经常和sort by配合使用。注:Distribute by和sort by的使用场景1.Map输出的文件大小
2020-08-13 10:45:28 395
hadoop-common-2.6.0-cdh5.8.4.jar
2019-12-20
spark-assembly-1.6.0-cdh5.8.4-hadoop2.6.0-cdh5.8.4.jar
2019-12-20
sparksql性能调优
2019-05-06
大数据集群卸载CM,卸载CDH,清除CDH 文件
2019-05-06
linux下部署CDH6.0.1详细步骤
2019-05-06
hbase性能调优
2019-05-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人