自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Phoenix优化——关于影响查询并发量的因素

概述        本文针对一个实际的项目中影响 Phoenix并发量2个因素进行介绍,希望能对大家有所帮助。背景       刚上线时phoenix并发量和响应时间一直不理想,表现出两个问题,一是极其简单的点查(where in条件、走索引)单客户端并发量只有几十,二是多个客户端同时压测时tps反而会下降。尝试调了诸如threadPoolSize 等参数都没有明显提升。踩坑CUR...

2019-01-31 22:42:40 1955 1

原创 Phoenix调优——元数据相关

概述        在使用Phoenix的过程中发现一些性能问题,最终发下都与元数据相关。本文描述了2个元数据方面的调优手段,希望能够对大家有所帮助。背景        Phoenix 集群数据由Spark Streaming程序写入,现象是在写入数的同时进行查询,响应时间会很长(大概在5秒以上),把spark streaming 程序停掉后响应时间就恢复正常(秒内)。Phoenix ...

2019-01-19 18:18:19 1104

原创 Phoenix与我理解的不一样

 概述    2018年在工作中接触了Phoenix,研究之后发现其实现原理与我初步的理解不太一样,相信对于很多做过数据库开发、用过HBase、又刚刚接触Phoenix的人来说也是这样,本文说几个点供大家参考,如果有误也希望大家能帮忙指出。谁来做执行计划?    在一般的关系型数据库中,数据库优化器会根据表和索引情况、统计信息等做出SQL的执行计划,这个过程是在服务端进行的。 ...

2019-01-12 23:43:39 502

原创 SSIS连接Excel、Oracle 32位64位驱动

概述本文针对SSIS连接Excel、Oracle等数据源的驱动问题做出解释,并给出一般解决办法。问题(1)在VS里开发SSIS包运行正常,在定时调度报错:“由于初始化连接程序时出错……(2)明明装了oracle客户端,VS就是报找不到驱动程序(SSIS 错误代码 DTS_E_OLEDB_NOPROVIDER_64BIT_ERROR。所请求的 OLE DB 访问接口 MSDAORA....

2018-12-14 09:26:58 4162

原创 Hue中Sqoop Editor使用--query的坑

概述       本文描述了在Hue中Sqoop Editor使用--query的问题及解决办法。问题       一个可以在终端运行的带—query的Sqoop脚本,在HUE 4.*版本中使用Sqoop1 Editor运行时job killed。排查       查看Yarn日志发现一组报错,看样子 结尾的“\”不会被当作换行符,而是被认成了参数。       删...

2018-11-27 16:45:31 3386

原创 HBase优化之避免数据倾斜

相关知识数据存入hbase表时会按照rowkey落在不同的region中,每个region都有边界(除非你只有一个region)startrow和endrow,rowkey在表中是按照ASCⅡ码排序的。例如下图中的region情况,如果有一个rowkey是006123456,它在0050和0100之间,因此它会被放在第二个region中。region被regionserver管理,...

2018-11-27 09:40:45 2760

原创 MapReduce over HBase Snapshot

背景       工作中有很多使用HBase作为批处理源和目标的场景。之前已经做过很多优化措施,基本原则就是减少对RegionServer的影响,特别是降低RegionServer GC的时间,比如写入时先写HFile再BulkLoad、使用Filter尽量只读取需要的行和列、使用G1GC等等。但是读取HBase表数据要通过RegionServer的堆,在大批量处理的程序中可能会带来长时间GC...

2018-11-26 15:32:52 751

原创 优化你的Sqoop import程序

概述       本文对Sqoop原理进行分析,结合实战经验,给出一些优化策略。对如下问题给出建议。怎样让sqoop快起来? 该用那个字段做分片? m 应该设置成多少? 可以用时间字段做分片么? 为什么写入Hbase把RS写挂了?     本文只讨论sqoop 1 的import。用途       Sqoop通常被用来做关系型数据库与Hadoop生态的数据交换。从语法上看...

2018-11-26 15:26:05 3827

原创 执行一个MapReduce时,应该监控些什么

    执行一个MapReduce时,应该监控些什么前言       本文讨论的是,在以Yarn做资源管理的集群上如何监控一个MapReduce程序。一、概述    当我们执行一个MapReduceJob,或是执行一个Hive SQL(MapReduce为引擎),又或是Sqoop后,程序被提交给了集群。对于开发、测试集群运行程序的开发人员来说,刚刚接触MapReduce的初学者往往是在命令行前等着...

2018-06-27 09:41:13 1307

原创 Hbase优化之预分区

    如果在hbase shell中使用create建表时只写了表名和列族名,那么这张表将只有一个region ,当一个region的大小超过阈值时会自动split成两个,但split操作会带来资源消耗。region个数太少时,在数据量大、访问量大,或被批处理程序读写情况下性能可能会很差,并且伴随大批量读写而来的GC可能会使regionserver宕机,接着region被transit到其他节点...

2018-06-26 10:14:43 2032

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除