2018年07月_mnasd

转载华为HBase调优

1.提升Bulkload效率操作场景批量加载功能采用了MapReduce jobs直接生成符合HBase内部数据格式的文件，然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。ImportTSV是一个HBase的表数据加载工具。前提条件在执行批量加载时需要通过“Dimporttsv.bulk.outp...

2018-07-31 15:49:25 1826

转载 Hbase运维手册

1. region情况需要检查1. region的数量（总数和每台regionserver上的region数）2. region的大小如果发现异常可以通过手动merge region和手动分配region来调整从CDH前台和master前台以及regionServer的前台都可以看到region数量，如master前台：在region server前台可...

2018-07-31 15:45:16 1474

原创 HMaster监控

一、HMaster监控指标Metric Type(GAUGE,COUNTER) 类型业务意义备注 averageLoad GAUGE Average number of regions served by each region server numRegionServers ...

2018-07-31 15:40:48 822

原创 HBase RegionServe监控

一、RegionServer级别的监控 Metric Type(GAUGE,COUNTER) 类型业务意义备注 regionCount GAUGE The number of regions hosted by the regionserver RegionServer包含对象 ...

2018-07-31 15:40:09 1874 1

原创 hbase

根据rowkey删除表中特定数据一、背景邮件内容：二、备份表三、删除操作3.1 查看被删除的key 3.2 删除操作：需要逐行删除ROW的columns 表的多种备份方式方法一：读取表中数据的方式优点：官方推荐、安全缺点：速度一般，无yarn的情况，200G/小时步骤一：导出表1.启用表<p...

2018-07-31 15:36:06 154

原创 move region

一、move region的目的move region主要是为了解决如下场景的问题：1.region分配不均衡，比如有的regionserver刚加入，管理的region很少，导致负载很小；2.某个表的region分配不合理，比如都集中在几个regionserver上，导致写入操作太集中，吞吐不高；二、move region的操作move命令server_name是可...

2018-07-31 15:31:37 1326

原创 merge_region

一、merge_region的操作目的合并region主要是为了减少HBase Master的元数据管理代价。二、merge_region的操作Both Master and RegionServer participate in the event of online region merges. Client sends merge RPC to the master, th...

2018-07-31 15:27:03 1917

原创 major_compact

一、major_compact的操作目的（1）合并文件（2）清除删除、过期、多余版本的数据（3）提高读写数据的效率 HBase中实现了两种compaction的方式：minor and major. Minor compactions will usually pick up a couple of the smaller adjacent StoreFiles and rew...

2018-07-31 15:16:22 7643

转载两个resourcemanager都处于standby，zkfc无法切换resourcemanager

该问题是对yarn-site.xml文件里的内存分配调整造成的，当强制变换yarn-resourcemanager为active报错yarn rmadmin -transitionToActive --forcemanual rm1You have specified the forcemanual flag. This flag is dangerous, as it can ...

2018-07-31 09:23:47 3204

转载 Hive学习之路（二十一）Hive 优化策略

目录一、Hadoop 框架计算特性二、优化常用手段三、排序选择四、怎样做笛卡尔积五、怎样写 in/exists 语句六、设置合理的 maptask 数量七、小文件合并八、设置合理的 reduceTask 的数量九、合并 MapReduce 操作十、合理利用分桶：Bucketing 和 Sampling 十一、合理利用分区：Partition 十二、Jo...

2018-07-30 16:53:49 368

转载 MapReduce任务参数调优

本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。Hadoop的默认配置文件（以cdh5.0.1为例）：core-default.xml hdfs-default.xml mapred-default.xml说明：在hadoop2中有些参数名称过时了，例如原来的mapred.reduce.tasks改名为mapreduce.job.redu...

2018-07-30 15:51:19 3704

转载 hive-调优笔记：JVM重用，并行执行、调整reducer个数的用处

解释：1、JVM重用是hadoop调优参数的内容，对hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或者task特别多的场景，这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的，这是jvm的启动过程可能会造成相当大的开销，尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重...

2018-07-29 20:37:02 451

转载 Hive学习之路（二十）Hive 执行过程实例分析

目录一、Hive 执行过程概述 1、概述 2、Hive 操作符列表 3、Hive 编译器的工作职责 4、优化器类型二、join 1、对于 join 操作 2、实现过程 3、具体实现过程三、Group By 1、对于 group by操作 2、实现过程四、Distinct 1、对于 distinct的操作 2、实现过程 3、详细过...

2018-07-29 20:01:12 697

转载 Hive学习之路（十九）Hive的数据倾斜

目录1、什么是数据倾斜？ 2、Hadoop 框架的特性 3、主要表现 4、容易数据倾斜情况 5、产生数据倾斜的原因 6、业务场景（1）空值产生的数据倾斜（2）不同数据类型关联产生数据倾斜（3）大小表关联查询产生数据倾斜正文回到顶部1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点回到顶部2、Hadoop 框...

2018-07-29 16:00:31 464

转载 Hive学习之路（十八）Hive的Shell操作

目录一、Hive的命令行 1、Hive支持的一些命令 2、语法结构 3、示例二、Hive的参数配置方式 1、Hive的参数配置大全 2、Hive的参数设置方式正文回到顶部一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the inte...

2018-07-29 15:28:38 580

转载 Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

目录概述数据准备数据格式创建表玩一玩GROUPING SETS和GROUPING__ID 说明查询语句查询结果结果说明再比如玩一玩CUBE 说明查询语句查询结果玩一玩ROLLUP 说明查询语句正文回到顶部概述GROUPING SETS,GROUPING__ID,CUBE,ROLLUP...

2018-07-29 15:23:27 698

转载 Hive学习之路（十六）Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE

目录数据准备数据格式创建表玩一玩LAG 说明查询语句查询结果结果说明玩一玩LEAD 说明查询语句查询结果结果说明玩一玩FIRST_VALUE 说明查询语句查询结果玩一玩LAST_VALUE 说明查询语句查询结果如果不指定ORDER BY，则默认按照记录在文件中的...

2018-07-29 15:22:33 1136

转载 Hive学习之路（十五）Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK

目录数据准备数据格式创建表玩一玩CUME_DIST 说明查询语句查询结果结果说明玩一玩PERCENT_RANK 说明查询语句查询结果结果说明正文这两个序列分析函数不是很常用，这里也练习一下。回到顶部数据准备数据格式cookie3.txtd1,user1,1000d1,user2,...

2018-07-29 15:20:41 1773 1

转载 Hive学习之路（十四）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

目录概述数据准备数据格式创建表玩一玩NTILE 说明查询语句查询结果比如，统计一个cookie，pv数最多的前1/3的天玩一玩ROW_NUMBER 说明分组排序查询结果玩一玩RANK 和 DENSE_RANK 查询语句查询结果 ROW_NUMBER、RANK和DENSE_RANK的区别正文回到顶部...

2018-07-29 15:19:36 402

转载 Hive学习之路（十三）Hive分析窗口函数(一) SUM,AVG,MIN,MAX

目录数据准备数据格式创建数据库及表玩一玩SUM 查询语句查询结果说明玩一玩AVG 查询语句查询结果玩一玩MIN 查询语句查询结果玩一玩MAX 查询语句查询结果正文回到顶部数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5co...

2018-07-29 15:05:23 1844

转载 Hive学习之路（十二）Hive SQL练习之影评案例

目录案例说明数据下载解析 1、正确建表，导入数据（三张表，三份数据），并验证是否正确 2、求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数） 3、分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分） 4、求movieid = 2116这部电影各年龄段（因为年龄就只有7个，就按这个7个分就好了）的平均影评（年龄段，影评分） 5、求最喜欢看电影（...

2018-07-29 15:02:04 1033

转载 Hive学习之路（十一）Hive的5个面试题

目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析二、学生课程成绩 1、说明 2、需求三、求每一年最大气温的那一天 + 温度 1、说明 2、需求 3、解析四、求学生选课情况 1、数据说明 2、数据准备 3、需求 4、解析五、求月销售额和总销售额 1、数据说明 2、数据准备...

2018-07-28 21:15:45 1378

转载 Hive学习之路（十）Hive的高级操作

目录一、负责数据类型 1、array 2、map 3、struct 4、uniontype 二、视图 1、Hive 的视图和关系型数据库的视图区别 2、Hive视图的创建语句 3、Hive视图的查看语句 4、Hive视图的使用语句 5、Hive视图的删除语句三、函数 1、内置函数 2、自定义函数UDF (1) 简单UDF示例 (2)...

2018-07-28 21:10:22 526

转载 Hive学习之路（九）Hive的内置函数

目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数正文回到顶部数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Retur...

2018-07-28 17:27:28 327

转载 Hive学习之路（八）Hive中文乱码

目录Hive注释中文乱码针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库 Metastore 中执行以下 5 条 SQL 语句 2、修改 metastore 的连接 URL 验证正文回到顶部Hive注释中文乱码创建表的时候，comment说明字段包含中文，表成功创建成功之后，中文说明显示乱码create externa...

2018-07-28 16:44:11 1282

转载 Hive学习之路（七）Hive的DDL操作

目录1、创建库语法结构创建库的方式 2、查看库查看库的方式 3、删除库说明示例 4、切换库语法示例 1、创建表语法示例 2、查看表（1）查看表列表（2）查看表的详细信息查看表的信息（3）查看表的详细建表语句 3、修改表（1）修改表名（2）修改字段定义（3）修改分区信息 ...

2018-07-28 16:39:37 357

转载 Hive学习之路（六）Hive SQL之数据类型和存储格式

目录一、数据类型 1、基本数据类型 2、复杂类型二、存储格式（1）textfile （2）SequenceFile （3）RCFile （4）ORCFile （5）Parquet 三、数据格式正文回到顶部一、数据类型1、基本数据类型Hive 支持关系型数据中大多数基本数据类型类型描述示例 b...

2018-07-28 15:21:16 216

转载 Hive学习之路（五）DbVisualizer配置连接hive

目录一、安装DbVisualizer 二、配置DbVisualizer里的hive jdbc 1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 2、拷贝Hadoop的相关jar包放入新建的hive文件夹里面 3、拷贝Hive的相关jar包放入新建的hive文件夹里面 4、结果 5、在tools/Driver manager中进行配置 6、在To...

2018-07-28 15:09:47 1164 1

转载 Hive学习之路（四）Hive的连接3种连接方式

目录一、CLI连接二、HiveServer2/beeline 1、修改 hadoop 集群的 hdfs-site.xml 配置文件 2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI 正文回到顶部一、CLI连接进入到 bin 目录下，直接输入命令： [hadoop@hadoop3 ~]$ hiveSLF4J: Cl...

2018-07-28 11:53:39 2039 1

转载 Hive学习之路（三）Hive元数据信息对应MySQL数据库表

目录概述一、存储Hive版本的元数据表（VERSION）二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS） 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文件存储信息相关的元数据表 1、SDS 2、SD_PA...

2018-07-28 11:40:51 972

转载 Hive学习之路（二）Hive安装

目录Hive的下载 Hive的安装 1、本人使用MySQL做为Hive的元数据库，所以先安装MySQL。 2、上传Hive安装包 3、解压安装包 4、修改配置文件 5、一定要记得加入 MySQL 驱动包（mysql-connector-java-5.1.40-bin.jar）该 jar 包放置在 hive 的根路径下的 lib 目录 6、安装完成，配置环境变量 ...

2018-07-28 11:15:09 2388

转载 Hive学习之路（一）Hive初识

目录Hive 简介什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2、跨语言服务： thrift server 提供了一种能力，让用户可以使用多种不同的语言来操纵hive 3、底层的Dr...

2018-07-27 09:21:11 715

转载 Hadoop的三种作业调度原理汇总

Hadoop调优方式一个MapRedcue作业是通过JobClient向master的JobTracker提交的（JobTracker一直在等待JobClient通过RPC协议提交作业），JobTracker接到JobClient的请求后把其加入作业队列中。Datanode节点的TaskTracker一直通过RPC向JobTracker发送heartbeat询问有没有任务可做，如果有...

2018-07-26 11:40:02 785

转载 Hadoop计算能力调度器算法解析

1. 编写目的本文描述了hadoop中的计算能力调度器（Capacity Scheduler）的实现算法，计算能力调度器是由Yahoo贡献的，主要是解决HADOOP-3421中提出的，在调度器上完成HOD（Hadoop On Demand）功能，克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。本文解析的计算能力调度器属于Hadoop 0.20.2。本文组织结构如下...

2018-07-25 15:35:14 578

转载 HDP YARN MapReduce参数调优建议

HDP平台参数调优建议根据上面介绍的相关知识，我们就可以根据我们的实际情况作出相关参数的设置，当然还需要在运行测试过程中不断检验和调整。以下是hortonworks给出的配置建议： http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm-chap...

2018-07-25 14:55:04 1601

转载确定HDP内存配置设置

9.确定HDP内存配置设置可以使用两种方法来确定YARN和MapReduce内存配置设置：使用HDP Utility脚本计算内存配置设置手动计算YARN和MapReduce内存配置设置 HDP实用程序脚本是计算HDP内存配置设置的推荐方法，但也提供了有关手动计算YARN和MapReduce内存配置设置的信息以供参考。 9.1。使用HDP Utility...

2018-07-25 14:09:37 1449

转载基于YARN的MapReduce日志几个注意事项

说明：本文提及的所有配置参数，都是基于Hadoop 2.5.0-cdh5.2.0环境。MapReduce（MR）的调试是一个比较麻烦的问题，除了一些辅助调试工具（如mrunit）外，相信通过日志定位问题仍然是一个比较常见的方法。虽然这种方法比较原始，但是很多时候也能解决大问题......下面将描述使用MR的日志时，需要注意的一些问题。1. MR运行过程中，日志将暂存于yarn.node...

2018-07-24 15:25:46 965

转载【HADOOP】“填坑”指南

Hadoop作为大数据离线分析平台环境，目前已经在各行业广泛使用，由于应用场景、环境版本、数据量等不同因素，经常会出现一些集群问题，有些问题会导致数据查询错误，有些问题会导致整个集群无法正常运行，本系列文章将列举一些问题案例，通过描述问题处理过程。场景数据表翻倍，导致数据表产生后无法查询。软件环境：Hadoop 2.6 错误1 select * from table...

2018-07-24 14:59:06 1113

原创 HBase清空表数据

一、清除之前检查1.表的region分配情况；2.表的大小（grafana可以看到）；二、清除之前备份hbase(main):001:0> disable 'gx_rpt:msg_push_taskid_group_name'0 row(s) in 2.1140 secondshbase(main):002:0> snapshot 'gx_rpt:msg_p...

2018-07-18 14:39:27 26265

转载 Hadoop常用命令

这篇文章主要是讲一下位于bin下的hadoop命令，我们可以直接输入hadoop无任何参数看一下：用法就是：hadoop [---config confdir] COMMAND此处COMMAND就是下面列出来的那些，fs, version,jar 等等。用户命令fs目前版本的hadoop已经摒弃了fs命令，取而代之的是hdfs dfs. Usage: hdfs dfs...

2018-07-18 14:33:42 904

mysql 监控

空空如也