自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (10)
  • 收藏
  • 关注

原创 hadoop跨KDC集群离线割接数据(hbase,hive元数据恢复)

hbase表跨集群迁移未开启kerberos集群:hadoop fs -copyToLocal /hbase/data/default/user_feature /data/tocdh516data/user_featurescp -r user_feature/ root@X.X.X.X:/data/hbase_data##新集群hbase用户执行hadoop fs -copyFromLocal /data/hbase_data/user_feature /hbase/data/defaul

2020-08-13 11:31:19 223

原创 hbase Region-In-Trasition解决方法

Region-In-Trasition解决方法 (region掉入长时间的RIT状态,balancer无法开启,region分布不均衡)zookeeper中 rmr /hbase/region-in-transition 目录删除后balance_switch truebalancerhbase balancer正常终极方案 删掉region下 recovered.edits文件hadoop fs -rm -r /hbase/data/default/*/*/recovered.edits/*

2020-08-13 11:21:14 156

原创 hive开窗

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此,distribute by经常和sort by配合使用。注:Distribute by和sort by的使用场景1.Map输出的文件大小

2020-08-13 10:45:28 381

原创 hive join return code 3

set hive.auto.convert.join=ture 解决

2020-08-13 10:42:45 557

MapReduce导出hbase数据工具BillFeeImport.jar

hbase导入hbase导入

2019-12-20

flume-ftp-source-master.jar

flum支持ftp工具jarflum支持ftp工具jar

2019-12-20

hadoop-common-2.6.0-cdh5.8.4.jar

hadoop-common-2.6.0-cdh5.8.4.jarhadoop-common-2.6.0-cdh5.8.4.jar

2019-12-20

spark-assembly-1.6.0-cdh5.8.4-hadoop2.6.0-cdh5.8.4.jar

spark-assembly-1.6.0-cdh5.8.4-hadoop2.6.0-cdh5.8.4.jar

2019-12-20

hbaseBillFeeExport.jar

hbase导出

2019-11-13

sparksql性能调优

Spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。 在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pending状态,且永远不结束

2019-05-06

大数据集群卸载CM,卸载CDH,清除CDH 文件

注意:卸载Cloudera Manager后,根据需要保留或者删除集群中的Hadoop数据。下面的命令没有删除Hadoop数据,可以在控制台的Hadoop 和MapReduce /配置/选项卡,查看Hadoop数据目录的位置,查找数据目录的属性设置。如果要卸载CDH,清除CDH 文件,参与CDH5安装指南中的卸载CDH组件。

2019-05-06

linux下部署CDH6.0.1详细步骤

CDH6安装步骤主要包括以下四部分: 1.安全前置准备,包括安装操作系统、关闭防火墙、同步服务器时钟等; 2.外部数据库如MySQL安装 3.安装Cloudera Manager; 4.安装CDH集群; 请务必注意CDH6的安装前置条件包括如下: • 外部数据库支持: 1.MySQL 5.7或更高 2.MariaDB 5.5或更高 3.PostgreSQL 8.4或更高 4.Oracle 12c或更高 • JDK Oracle JDK1.8,将不再支持JDK1.7 • 操作系统支持 1.RHEL 6.8或更高 2.RHEL 7.2或更高 3.SLES 12 SP2或更高 4.Ubuntu 16或更高 • 本次Fayson的测试环境为 1.CM和CDH版本为6.0.0-beta1 2.Redhat7.4 3.JDK1.8.0_141 4.MariaDB-5.5.56

2019-05-06

hbase性能调优

hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好

2019-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除