自由盼盼-CSDN博客

原创 Hbase优化

目前粗略写一下，后面可以一步步更新对于RS的JVM优化：export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS $HBASE_JMX_BASE -server -Xmx15360m -Xms15360m -Xmn3000m -XX:+UseParNewGC -XX:+CMSParallelRemarkEnabled -XX:+Use

2017-06-16 14:29:45 480

原创 hive-bug:create db.tablename as select .....

hive1.1版本执行create tmp.tablename as select .....语句的时候报以下错误：FAILED: SemanticException 0:0 Error creating temporary folder on: hdfs://***/user/hive/warehouse. Error encountered near token 'TOK_TMP_FIL

2017-06-15 18:56:09 4457

原创 Hive Cli SocketException:Broken Pipe

上个月夜间调度出了几次java.net.SocketException:Broken Pipe的问题，如下：看着异常第一感觉是网络或者mysql的问题，查看了那段时间的网络一切正常，mysql也没有过多连接的问题;netstat查看metastore连接的时候发现过多的连接，而连接metastore无非CLi和Hiveserver2两种，重启了HiveServer2后连接直线减少，

2017-06-14 18:07:38 1876

原创 Hbase region移动

hbase有时某节点同个表的region过于集中出现热点问题，为了均衡要移动均分到其他RS上；首先通过Master页面可以看到RS的地址信息如下：查看某表所有对应的region的信息如下：上面截图最后一个region对应的regionid就是a183a623f053f803e01c3f888e9bb7c7执行命令：move ‘regionId’,’serverNam

2017-06-09 16:40:48 1209

原创 Yarn的fair和capacity调度器

yarn通过可插拔方式提供调度策略，由于FIFO对多用户情况欠缺，这里只介绍容量调度(capacity)和公平调度器(fair);相同点：1.支持多队列多用户，提高集群资源利用率；2.支持动态加载配置文件，比如修改了配置，yarn rmadmin -refreshQueues即可刷新；3.支持资源抢占和批量分配；不同点：1.队列间资源分配方面，capacity是资源满足

2017-05-31 15:27:59 1642

转载 Java虚拟机运行时数据区

我们运行java程序的过程就是就是启动一个jvm进程来执行java程序的过程，这个过程中会把所管理的内存划分为不同的数据区，1程序计数器寄存器pc寄存器用于存放一条指令的地址，这条指令就是虚拟机要执行的下一条指令。pc寄存器和线程相关联，每一个线程都有一个PC寄存器。

2017-05-30 23:39:09 258

原创 Unhealthy Nodes导致计算能力下降

某天集群出现Unhealthy Nodes导致集群计算能力下降的问题，检查发现该节点比较多磁盘块达到90%的瓶颈了，yarn中有相关的配置，如下：yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage90The maximum percentage of di

2017-05-28 21:40:44 1262

原创 hadoop2.4后的滚动升级

1.介绍 HDFS的滚动升级可以只升级独立的守护进程，比如可以独立升级datanode、namenode、journalnode，这些进程都可以不相互依赖来升级；hadoop2.x开始支持HDFS的HA，也正是HA，集群可以不停机来滚动升级，当然前提是先不要升级journalnode和zookeeper，下面描述一下非联邦HA升级的过程。2.滚动升级2.1备份首先，先备份

2017-05-28 20:41:41 1428

原创 hadoop涉及到分摊磁盘io负载的配置

配置datanode block存放目录的时候，机器多磁盘能分摊磁盘IO负载，以下配置 dfs.datanode.data.dir file:/data2/hadoop/hd_space/dfs/data,file:/data3/hadoop/hd_space/dfs/data.........

2017-05-27 18:28:40 1247

原创 Ranger编译安装应用

1.Ranger简介： Ranger的愿景是给apache hadoop生态系统提供全面的安全管理，目前支持的模块已经比较全面，特别对hdp版本各个模块支持的比较全，比如hdfs、yarn、hive、hbase、storm、kafka、solr、knox、atlas等，对这些模块进行细粒度的数据访问授权和审计来对数据进行有效保护；目前ranger已经发行了1.

2017-05-27 15:19:04 3361 3

原创 hive 库清理问题

hive 清理数据drop库的时候，出现库中还存在表或者函数删除不了的问题：可以通过级联删除处理掉，动作比较危险，谨慎用：

2017-05-26 15:16:26 648

原创记hadoop集群黑名单移除节点出现问题及解决

首先区分一下通过直接下线服务和通过黑名单来移除节点的区别，这两个动作都会涉及到block副本数不够而复制移动恢复的问题，但是通过黑名单的话可以同时移除多个节点，这个是两种情况的主要区别；步骤：1.移除nodemanager 在yarn-site.xml中加入以下配置 yarn.resourcemanager.nodes.exc

2017-05-25 16:12:06 1855

原创 spark动态资源分配

1.简介前段时间仓库间推广spark-sql时，生产环境已经应用了spark dynamic resource allocation特性，即可动态的资源分配，这里的动态和资源分配是指executor级的，我们知道spark的资源分配是比较coarse-grained的，一个spark作业不同stage之间task数量有时差异比较大，特别是最后stage的时候，有些作业数据稍微倾斜一下，那就有大

2017-05-25 14:09:40 4978

原创 Hive llap服务安装说明及测试

1.简介说明apache hive去年12月发布了2.1.1版本，从Hive 2.0引入了LLAP（Live Long And Process），2.1进行了比较大的优化，可以说hive已经走向了内存计算，目前hortonworks测试llap +tez比hive1.x快了25倍，禁不住诱惑来玩一下2.LLAP安装2.1依赖Hive llap服务安装依赖先安装tez，和slid

2017-05-25 10:28:43 6793 4

原创 Slider安装说明

1.简介Apache Slider目前还是Apache二级孵化项目，作为yarn的动态应用，可将已有分布式服务或者应用直接部署到YANR上，监控应用并按需调整应用资源大小；slider特性有：允许用户在Yarn集群中按照需求创建应用运行运行不同版本的应用，所以可以实现在同一个集群部署不同版本的hbase 支持用户配置不同的应用实例按需停止/暂停/

2017-05-24 18:25:46 3174 1

原创 tez编译安装测试

1.版本选择首先选择tez版本，根据Hive-Tez兼容信息确定合适的版本，详细见以下wiki地址：https://cwiki.apache.org/confluence/display/Hive/Hive-Tez+Compatibility由于生产环境使用的是hive-1.1.0，所以选择tez官网0.7.1版本来安装；2.编译首先从官网http://www.apac

2017-05-24 15:47:13 1637

qingzhenli的博客