Tony_仔仔 的博客

踏实工作,愉快生活 ^_^

hbase性能优化路线

本文主要针对hbase1.X版本的性能优化,优化涉及的方面有很多,下面分别以图表的形式阐述。 hbase优化涉及面概览: linux系统优化: JVM优化: 高可用&HFDS优化: 配置参数优化: 业务优化: 客户端优化: 大家可以根据自己的业务情况做具体某一些方面的...

2019-04-09 18:51:56

阅读数 219

评论数 2

大数据平台的元数据管理

【概念解释】 1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数...

2019-03-23 00:27:17

阅读数 46

评论数 0

python中的all和any用法

有时候我们需要判断多个条件是否为True,以此做下一步的操作,那么此处的python内建函数all或者any就很有用。 Python 2.7.13 (v2.7.13:a06454b1afa1, Dec 17 2016, 20:42:59) [MSC v.1500 32 bit (Intel)] ...

2019-02-20 15:27:50

阅读数 28

评论数 0

案例分享:如何使用yarn中的容量调度器

容量调度器capacity scheduler有以下特性: 1,FIFO Scheduler的局限性,多个用户需要共享集群资源,集群资源以队列为单位划分; 2,可以控制每一个队列资源最低保障和最高限制,最高使用限制是防止某个队列占用过多空资源,导致其他队列资源紧张; 3,可以针对用户设置每个...

2018-12-05 15:38:34

阅读数 122

评论数 0

HIVE开启严格模式后如何使用msck修复分区

HIVE如何开启严格模式:hive-site.xml中添加: <property> <name>hive.mapred.mode&a...

2018-10-23 17:10:23

阅读数 125

评论数 0

hive有关的MapReduce大作业的性能问题(mapper数过多)

Hive查询涉及的小文件过多对MR作业的危害: Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。 一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件...

2018-10-11 20:06:54

阅读数 602

评论数 0

Yarn调优之调整ResourceManager堆内存大小

ResourceManager挂了。查看到active的ResourceManager日志有如下内容: java.lang.OutOfMemoryError: Java heap space 故障的原因是RM的堆内存空间size不够了。 查看到活跃节点RM的最大对内存大小仍然是默认的1000...

2018-10-08 20:20:46

阅读数 988

评论数 1

如何有效调整HiveServer2进程的JVM堆内存大小?

HiveServer2在以下简称HS2 [hadoop@tony_hdp_01 bin]$ pwd ${HIVE_HOME}/bin [hadoop@tony_hdp_01 bin]$ ll total 40 -rwxr-xr-x 1 hadoop hadoop 881 Nov 10 ...

2018-09-27 15:40:31

阅读数 849

评论数 0

解决yarn上的MapReduce作业失败问题container XXXX is running beyond physical memory limits

【问题】 今天突然发现有多个报表作业失败,涉及到查询有关报活的表。联想到最近几天有ETL同学的作业从老集群迁移到这个新集群上运行,推测可能是资源不够用导致的作业失败。 错误日志摘要: Container [pid=31300,containerID=container_e80_1535989...

2018-09-04 18:05:38

阅读数 277

评论数 0

跨集群hive批量建表

【需求】 在集群A建表,要同步在集群B建表、修复历史分区。表用到的数据源在云上。 【注意】hive -f时涉及的HDFS操作权限问题 A集群有9个表要同步到B集群 [hive@bigdata-master-1 ~]$ vim tables_ToBeCreated_onOtherC...

2018-08-31 21:24:49

阅读数 349

评论数 0

如何将Hive仓库中的查询结果导出到本地文件

我在hive仓库中有个表,已经使用HQL跑出来结果,存到了hive中。表的schema如下 show create table test_xiaoxiannv.dw_clickadvert_daily; CREATE EXTERNAL TABLE test_xiaoxiannv.dw_cli...

2018-08-06 11:35:57

阅读数 883

评论数 0

Hive常用分区操作命令20180805

环境:hadoop-2.7 , hive 2.1 // 在linux命令行为指定的表,以循环方式插入分区 for d in “4 5”; do hive -e “ALTER TABLE machine_logs.uniform_id ADD IF NOT EXISTS PARTITION...

2018-08-05 17:14:16

阅读数 316

评论数 2

yarn中MR作业报错Java heap space

提交到yarn框架计算的作业报错 //0,报错内容 我们hadoop-2.7集群用的执行引擎不是Tez,而是mr(是老集群) Error: Java heap space Container killed by the ApplicationMaster. //1,查找报错日志 [ro...

2018-08-05 15:57:34

阅读数 539

评论数 0

解决Yarn页面的Unhealthy Nodes问题

查看到yarn监控页面上有十几个Unhealthy 节点,分别进去Unhealthy Nodes查看个目录的占用磁盘情况,发现是HDFS的有关目录占用过多了。 (1) tmp_users=`hdfs dfs -ls /tmp/ | awk '{print $8}' | cut -d&...

2018-07-31 16:50:16

阅读数 522

评论数 0

spark2.1 yarn cluster作业失败AnnotatedConnectException: Connection refused

作业提交脚本和spark作业相关的python代码 [root@tony-client-1-001 ~]# vim /mnt/tony/rec_model/model/data/f0.sh #!/usr/bin/env bash curr_dir=`pwd` src_path=${curr_...

2018-06-12 20:14:30

阅读数 903

评论数 0

shell脚本——如何获取函数的返回值

在shell脚本(以bash为例),既可以通过return关键字来返回函数的值,也可以通过echo关键字来返回函数的值。下面分开来讲一下如何捕获函数的返回值。 (1)函数中使用return返回函数值时,通过 echo $? 来捕获函数返回值。请看脚本 bash1.sh #!/bin/bash ...

2018-06-07 16:35:17

阅读数 8314

评论数 2

hbase集群负载均衡与高性能的关键——region分割与合并

第一部分、分割(split) split是切分、切割、分裂的意思,用来描述region的切分行为。 【与region有关的存储结构介绍】 hbase中的Region是一张表的子集,也就是说把一张表在水平方向上切割成若干个region。一张表一开始的时候只有一个region(区域),随着数据量...

2018-06-04 20:25:56

阅读数 2721

评论数 0

shell脚本中使用if和bc比较变量值和指定值

【需求场景】 我想要在整点时间运行某脚本,但是不想使用crontab。这里用到了bc来比较大小。 如果没有安装bc,需要以root用户使用yum install -y bc即可安装,安装后就能直接使用了。示例脚本如下。 #!/bin/bash function run_job(...

2018-05-24 14:44:41

阅读数 1396

评论数 0

hive shell按照日期分区查询出错container rejected as it is allocated by a previous RM

【错误现象】错误日志摘要如下hive> SELECT COUNT(*) FROM user_emails WHERE DT='2018-05-04';Query ID = hive_20180521154838_e7c24767-8634-44e7-bad6-3a73ce13...

2018-05-21 16:09:14

阅读数 212

评论数 0

如何在linux shell脚本中自动输入密码.

答案是需要通过expect 来实现。 【注意】如果没有 expect ,需要预先安装 [tony@pd2 ~]$ yum info expect Loaded plugins: fastestmirror Repodata is over 2 weeks old. Install yum-cr...

2018-05-15 18:04:26

阅读数 5355

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭