自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (29)
  • 收藏
  • 关注

原创 griffin与Livy、hdfs、ES7 、kerberos的集成

主要修改griffin源码:将依赖改为CDH的包,将其改为通过LDAP认证方式连接Hive server2,通过kerberos方式连接Hive metastore;改为适配ES 7的API调用;修改前端显示bug;Livy使用kerberos,使用客户端调用Livy API时认证的principal向yarn提交application

2021-07-13 09:57:04 695

转载 hbase region split

转载https://cloud.tencent.com/developer/article/1374592

2020-12-16 10:51:59 124

原创 HBase线上生产调优建议(读写分离、RSgroup、流量控制)

笔者今天给大家讲一下 HBase 生产环境中的实践,包括资源隔离、参数配置、性能优化等方面,部分内容参考《HBase原理与实践》(非常建议大家好好读一读,一定会大有收获),以及笔者的实战经验。HBase 业务资源隔离1. 读写分离场景RegionServer 默认情况下只提供一个请求队列给所有业务使用,导致部分延迟较高的请求影响其他对延迟敏感的业务。针对这种情况,HBase 提供了读写队列隔离方案。我们知道,HBase 有三种典型的API操作类型,分别为 get、scan 和write,其中

2020-10-19 14:04:41 2412

原创 Kudu1.7修复unavailable Tablet replication

情景: 昨天修改了solr的配置,重启完solr发现有两台kudu server掉了,查看日志发现原来是由于文件句柄太多了导致的。但是由于kudu中的数据太多,container过多,并且full container较少,重启kudu server特别慢,会一直在做log_block_manager,这是由一个已知的bug导致的。https://issues.apache.or...

2019-07-20 15:12:25 2649

原创 HBASE表迁移之snapshot、hashtable和synctable、replication

对于生产环境中的HBASE表做数据迁移的话不建议使用CopyTable,CopyTable实质上是scan hbase表,对regionserver造成的压力太大,会影响线上的查询写入。而snapshot则是快照,只会映射出来一份元数据信息,exportSnapshot的时候会根据元数据信息去寻找对应的HFile,然后通过MapReduce导入到另一个集群的hbase中生成对应的快照。snap...

2019-07-20 14:39:44 780

原创 Kafka-Eagle过kerberos配置并集成企业微信报警

本篇文章主要讲如何在开启了kerberos的kafka环境中配置kafka-eagle,并开启邮件报警和企业微信报警。首先展示system-config.properties的配置:####################################### multi zookeeper&kafka cluster list 配置zk的信息,这里可以加多个集群######...

2019-07-09 16:02:00 1726 3

原创 HBase/Hive+Lily Indexer+solr踩坑总结

HBase/Hive+Lily Indexer+solr踩坑总结1号坑----大数据量的HBASE表往solr中刷历史索引需要关闭Lily,并根据rowkey分批运行MapReduce踩坑情景:我们有一张4亿条、300+字段的HBASE表需要针对30个字段在SOLR中建立二级索引,在刷历史数的时候没有分批,直接运行了批量建索引的MR程序,导致SOLR直接被冲垮,无法提供服务。原因:...

2019-07-09 15:19:19 935

原创 kudu1.7版本使用限制(官方版)

已知问题和限制置顶先说一个kudu-1508的bug,如果你的服务器操作系统为Redhat或Centos 6.9以下,那么极有可能会触发该bug,会导致kudu重启时花费很长时间进行log_block_manager的读取,我这边kudu有1.8T的数据,重启后花了两个小时才好。在进行log_block_manager读取的时候,kudu停止对外服务,7050和8050端口全部处于关闭状态。若...

2019-01-09 17:24:59 1624

原创 HBase随笔记录权限控制、命名空间、流量限制和表负载均衡

hbase

2017-11-27 13:31:13 2273

原创 impala与hive配置haproxy

impala与hive配置haproxy博主用的服务器系统版本为CentOS6.5,可联网安装haproxy yum install haproxy编辑配置文件下面是个配置实例:vim /etc/haproxy/haproxy.cfgglobal # to have these messages end up in /var/log/haproxy.log you will

2017-11-27 13:19:25 700

原创 Mongodb 3.0+操作手册 纯手打

Mongodb操作手册权限控制··3用户概念···3内建角色···3角色权限···4开启授权机制···5用户授权详解···6命名规范·· 7文档···7集合···8数据库···9SHELL中的基本操作·· 9创建···10读取···10更新···11删除···11数据类型·· 12

2017-10-30 10:37:30 2656

原创 KUDU对表操作

网上KUDU的资料很少,建议大家去下载官方文档,http://download.csdn.net/download/m0_37534613/9772873这是我整理好的。介绍的还是比较全的对于KUDU删除表就直接在Linux下运行:kudu table delete master(master的主机名) 表名对于使用kudu1.1以及以下的用户,利用impala创建ku

2017-03-07 13:58:22 19390

原创 IMPALA性能测试

impala与hive共享元数据,及hive中的表在impala中也有,并且可以做一些操作。但是impala抛弃了hive的底层MapReduce引擎,Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS,其中Imapalad负责接受用户的查询请求,也意味着用户的可以将请求发送给任意一个Impalad进程,该进程在

2017-02-21 17:02:54 4329

原创 Hive分桶之BUCKET详解

Bucket对于每一个表(table)或者分区(partition), Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利

2017-02-16 15:04:51 11038

原创 关于hive引用正则表达式建表的格式

正则表达式建表只要引用hive的正则包,并且将input的正则式子对数据切分出来的字段和output的%x$s以及你所建表的字段对应起来就好了。废话不多说,直接上例子了:create external table test1( 'ip' string, 'username' string, 'passwd' string, 'time' str

2017-02-16 14:31:47 1683

原创 关于Kylin的安装问题

在kylin的安装方面,主要有以下几个点需要注意:(楼主是用的CDH5.8.3)1、必须和hive放在同一个节点中2、必须安装了hbase3、必须设置kylin_home环境变量4、不要额外安装tomcat,kylin的tar.gz包自带tomcat,而且也不需要你去配置和启动tomcat5、你只需要将kylin的tar包解压,配置好环境变量,进入到/kylin/bin中启动./kylin.sh start就好了,接着去ip:7070/kylin就OK

2017-02-15 15:11:42 1599 1

griffin集成Livy kerberos.docx

EBay开源出来的apache griffin是一款数据质量检测工具,结合Livy、spark、hive、hdfs去使用的。但是开源的代码质量有些差,而且报错日志不友好,楼主踩了很多坑才部署好,实测可用,特将文档记录下来分享给大家。这个文档中包含了操作系统+Livy+HDFS的配置与集成

2021-07-01

hive优化建议.docx

测试了关于hive优化的一些方法,ETL需要的朋友可以下载看看。

2020-12-21

hive常用文件格式详细测试.xlsx

测试orc、rcfile、sequence、parquet、textfile的压缩对比、查询时间、cpu耗时对比等

2020-12-02

hbase监控工具hbtop CDH6.3.2版本

hbase监控工具hbtop CDH6.3.2版本,用于监控表、namespace的访问情况,可快速定位问题

2020-10-19

cdh5-6-Hive版本之间不兼容特性

cdh5和cdh6,Hive版本之间不兼容的特性。要做升级的朋友可以看看,主要是union和union all

2020-10-16

hbase hbck2修复工具hbase-operator-tools-1.0.0.1.0.0.0-618-bin.tar.gz

hbase hbck2修复工具hbase-operator-tools-1.0.0.1.0.0.0-618-bin.tar.gz,hbase1版本的hbck已经不支持修复命令,hbase2.1版本需要用这个新版的工具

2020-10-16

集群版本对比.xlsx

CDH 5.15和CDH6.3中各个组件主要特性对比,博主纯手打整理,挺详细的,有需要的可以下载看看

2020-09-03

文件格式测试.xlsx

ORC、PARQUET、Sequence、Text格式在hive和impala中使用对比,在生产环境测试的

2020-09-03

Phoenix文档.docx

cdh配置phoenix、java操作Damon、建表、建索引、CsvBulkload等操作,很全,博主纯手打

2020-09-03

Cloudera CDH集群运维手册

Cloudera CDH集群运维手册,带截图的,挺详细,有用Cloudera cdh集群的可以看看

2019-01-09

hbase+solr创建二级索引完整操作

楼主实操的步骤整理的,只需要将Zookeeper的ip换成自己集群的就可以一步步地跟着文档实现,感兴趣的同学可以看看。

2018-09-04

HBASE赋权操作

自己整理的HBASE结合KERBEROS的赋权操作,对HBASE各用户进行资源管理划分的操作步骤。

2018-01-03

HBASE使用注意事项

博主自己整理的一些HBASE的注意事项,可能比较LOW,大家凑活看看。

2018-01-03

IMPALA操作手册

从官方文档中挑选出来的重要的知识点进行的整理。正在运用impala的人可以借鉴一下。

2018-01-03

京东金融大数据分析平台总体架构

京东金融大数据分析平台总体架构的ppt,做架构的可以借鉴一下

2017-10-30

Hive编程指南

如果你现在从事大数据行业,请仔细看看Hive,如果你公司是Hive的重度用户,请研究透这本书

2017-08-22

mastering-apache-spark最好的spark教程

最好的spark编程教程,没有之一,1800页,想学习的来吧

2017-08-22

SPARK内存管理机制最全!

详细介绍spark的内存管理机制,想要优化spark却无从下手的同行们一定要看看!

2017-08-22

本地跑mapreduce教程

eclipse的运行结果框跑MR,压缩包里面有截图教程和所需要的所有文件。将jar包和其他配置文件根据教程放好,配好环境变量,就可以在eclipse的console框里面本地跑mapreduce,本人和很多同学都用的这个办法,刚开始测代码的时候很好用。

2017-03-23

Oracle 11g详细操作

Oracle实操,自己做的笔记,全部截图附加解释

2017-03-08

java面试宝典

应聘必看,全网最全的java面试指点!!!

2017-03-08

Java数据结构和算法第二版 扫描版

高清晰版java数据结构和算法第二版,由浅入深易懂易学

2017-03-07

vim彩色中文教程

vim教程,全网最全的,喜欢Linux的来

2017-03-07

c语言面试指导

最具有权威性的c/c++面试指导

2017-03-07

debugging with gdb

linux下gdb调试bug的经典教程

2017-03-07

impala-uuid创建教程

详细介绍了impala创建自定义函数去除‘-’的uuid,包括maven所用的pom.xml

2017-03-07

kudu0.6操作文档

kudu0.6操作文档

2017-03-07

kudu1.2操作文档

kudu操作文档,很全,包括架构,安装,对表的操作等等很多

2017-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除