![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 72
宝罗Paul
这个作者很懒,什么都没留下…
展开
-
离线数仓作业大面积延时的故障复盘
一、故障背景2021-02-17 早晨发现钉钉群“数据平台”在07:00发出告警:Flow data_warehouse status is RUNNING, totally 164 unsuccessful job, primarily because:dwa_vvip_page_user_trail_daily status:RUNNINGdwa_openplatform_xmfm_vip_listeninfo_daily status:RUNNINGdwa_vvip_marketing_sp原创 2021-03-06 13:39:43 · 565 阅读 · 0 评论 -
NameNode频繁切换active/standby的原因和解决
【导读】若HA-Hadoop集群的active NameNode频繁出现自动切换,则可能的原因有二:(1)ZKFC的健康检查超时时长设置不合理,导致ZKFC认为NN挂掉(实际上此时的NameNode是正常active的,即“NameNode假死现象”),从而引起自动切换active NN;(2)Zookeeper上的Session Timeout导致zookeeper的服务端丢弃了当前持有的active锁(是一个临时znode),导致自动切换。【故障现象】某天下午,钉钉群发出一条NameNode下原创 2021-03-01 17:23:04 · 4412 阅读 · 0 评论 -
Hbase2.0某台RegionsServer宕机的RCA以及如何预防
一、故障背景HDP 的Ambari控制台显示某台主机的RegionServer服务下线二、根本原因分析(RCA,Root Cause Analysis)(1)从Ambari控制台手动start RegionServer服务,失败。(2)检查这台主机上的RS有关日志,发现有多条记录:org.apache.hadoop.hbase.ClockOutOfSyncException: Server 172.25.224.4,16020,1613788579799 has been rejected原创 2021-02-26 17:53:38 · 345 阅读 · 2 评论 -
解决yarn上的MapReduce作业失败问题container XXXX is running beyond physical memory limits
【问题】 今天突然发现有多个报表作业失败,涉及到查询有关报活的表。联想到最近几天有ETL同学的作业从老集群迁移到这个新集群上运行,推测可能是资源不够用导致的作业失败。 错误日志摘要:Container [pid=31300,containerID=container_e80_1535989582384_2041_01_000210] is running beyond physical m...原创 2018-09-04 18:05:38 · 2125 阅读 · 0 评论 -
跨集群hive批量建表
【需求】 在集群A建表,要同步在集群B建表、修复历史分区。表用到的数据源在云上。【注意】hive -f时涉及的HDFS操作权限问题 A集群有9个表要同步到B集群 [hive@bigdata-master-1 ~]$ vim tables_ToBeCreated_onOtherCluster# 9个表是:[hive@bigdata-master-1 ~]$ cat tables_To...原创 2018-08-31 21:24:49 · 1490 阅读 · 0 评论 -
如何将Hive仓库中的查询结果导出到本地文件
我在hive仓库中有个表,已经使用HQL跑出来结果,存到了hive中。表的schema如下show create table test_xiaoxiannv.dw_clickadvert_daily;CREATE EXTERNAL TABLE test_xiaoxiannv.dw_clickadvert_daily( id int, ip string, time str...原创 2018-08-06 11:35:57 · 4444 阅读 · 0 评论 -
Hive常用分区操作命令20180805
环境:hadoop-2.7 , hive 2.1// 在linux命令行为指定的表,以循环方式插入分区 for d in “4 5”; do hive -e “ALTER TABLE machine_logs.uniform_id ADD IF NOT EXISTS PARTITION (dt=’2018-08-0$d’)”;echo —— ; doneLogging initializ...原创 2018-08-05 17:14:16 · 1291 阅读 · 0 评论 -
yarn中MR作业报错Java heap space
提交到yarn框架计算的作业报错 //0,报错内容 我们hadoop-2.7集群用的执行引擎不是Tez,而是mr(是老集群) Error: Java heap space Container killed by the ApplicationMaster.//1,查找报错日志 [root@ my-hadoop-cluster hive]# grep -C 3 –color “log....原创 2018-08-05 15:57:34 · 3250 阅读 · 0 评论 -
解决Yarn页面的Unhealthy Nodes问题
查看到yarn监控页面上有十几个Unhealthy 节点,分别进去Unhealthy Nodes查看个目录的占用磁盘情况,发现是HDFS的有关目录占用过多了。(1) tmp_users=`hdfs dfs -ls /tmp/ | awk '{print $8}' | cut -d"/" -f3 | xargs `[root@w原创 2018-07-31 16:50:16 · 4685 阅读 · 0 评论 -
hbase集群负载均衡与高性能的关键——region分割与合并
第一部分、分割(split)split是切分、切割、分裂的意思,用来描述region的切分行为。【与region有关的存储结构介绍】 hbase中的Region是一张表的子集,也就是说把一张表在水平方向上切割成若干个region。一张表一开始的时候只有一个region(区域),随着数据量的增长,会自动(或手动)切分出来越来越多的region。HBase中针对表采用”Range分区”,把r...原创 2018-06-04 20:25:56 · 10056 阅读 · 1 评论 -
hive shell按照日期分区查询出错container rejected as it is allocated by a previous RM
【错误现象】错误日志摘要如下hive> SELECT COUNT(*) FROM user_emails WHERE DT='2018-05-04';Query ID = hive_20180521154838_e7c24767-8634-44e7-bad6-3a73ce13f768Total jobs = 1Launching Job 1 out of 1Status: Running (...原创 2018-05-21 16:09:14 · 1799 阅读 · 0 评论 -
用happybase查询hbase时出现ThriftServer报错
【运行环境】java SE 1.8.0_101,hadoop-2.7.3,HBase-1.1.2,Zookeeper-3.4.6,python2.7,happybase1.1.0【作业报错信息】IOError: IOError(message='org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 6...原创 2018-04-26 11:33:27 · 2993 阅读 · 0 评论 -
hive中创建关联hbase表的几种方案
【运行环境】hive-1.2.1 hbase-1.1.2【需求背景】有时候我们需要把已存在Hbase中的用户画像数据导到hive里面查询,也就是通过hive就能查到hbase里的数据。但是我又不想使用sqoop或者DataX等工具倒来倒去。这时候可以在hive中创建关联表的方式来查询hbase中的数据。【创建关联表的几种方案】前提是:hbase中已经存在了一张表。既可以在hive中关联此表的...原创 2018-05-03 16:28:00 · 9603 阅读 · 0 评论 -
kylin2.3作业将结果写入hbase时报错TableNotFoundException
执行kylin作业报错,这个作业是要把运行结果写入到hbase的表里的,但是再写入hbase过程中报错hbase中没有表 'kylin_metadata'。错误日志摘要——2018-05-07 20:28:46,137 WARN [main] util.HeapMemorySizeUtil:55 : hbase.regionserver.global.memstore.upperLimit is...原创 2018-05-09 20:08:42 · 4131 阅读 · 1 评论 -
hive有关的MapReduce大作业的性能问题(mapper数过多)
Hive查询涉及的小文件过多对MR作业的危害:Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多,那么每一个map task只是处理很小的input数据,会产生大量的map tasks,...原创 2018-10-11 20:06:54 · 4507 阅读 · 0 评论 -
如何有效调整HiveServer2进程的JVM堆内存大小?
HiveServer2在以下简称HS2[hadoop@tony_hdp_01 bin]$ pwd${HIVE_HOME}/bin[hadoop@tony_hdp_01 bin]$ lltotal 40-rwxr-xr-x 1 hadoop hadoop 881 Nov 10 2017 beelinedrwxrwxr-x 3 hadoop hadoop 4096 Mar 6 20...原创 2018-09-27 15:40:31 · 10910 阅读 · 2 评论 -
高可用redis集群搭建
在web项目里出现高并发时,可以通过负载均衡来处理,redis的插槽分配机制就是一个负载均衡的模式。Redis集群节点复制介绍(1)Redis集群的每个节点都有两种角色可选:主节点master node、从节点slave node。其中主节点用于存储数据,而从节点则是某个主节点的复制品(2)当用户需要处理更多读请求的时候,添加从节点可以扩展系统的读性能,因为Redis集群重用了单机Redis...原创 2019-09-28 00:34:11 · 608 阅读 · 0 评论 -
Pinpoint部署和踩坑记录
pinpoint是韩国人开源的 APM (Application Performance Management/应用性能管理)工具 - Pinpoint。它基于google Dapper开发,目标就是为n(n>=1)层架构开发新的跟踪平台,为n层架构的系统提供解决方案。pinpoint能够对基于java的大规模分布式系统和应用做调用链的跟踪。pinpoint提供了一个web页面展示分布式系统...原创 2019-05-29 16:00:21 · 13125 阅读 · 6 评论 -
使用vsFTP服务实现大数据的远程灾备
目 录[第一章] 安装VSFTPD[第二章] 相关用户的创建,以及用户相关目录和文件的创建[第三章] VSFTP客户端的使用[第四章] 实施大数据文件的异地灾备业务需求:对云主机的大数据做远程灾备(把云主机上的数据在其他的机器上做定期备份),以便云主机数据丢失后的恢复。ftp客户端用户的权限:每个用户只能在自己的根目录执行ls、mkdir、put;不允许删除自己根目录下的文件,不允许删...原创 2019-05-18 13:37:56 · 634 阅读 · 0 评论 -
OpenTSDB使用demo及其httpAPI的保护
【目录】【第一章】Opentsdb运行环境准备【第二章】安装HA-hadoop集群、HA-HBASE集群、zookeeper集群【第三章】安装openTSDB【第四章】通过Nginx对OpenTSDB做用户验证,确保opentsdb http接口安全本文提到的各种服务和操作都经过本人验证,期间的坑已经替你们踩过了,读者可以参照本文档来一步步实施。觉得有用可以收藏。【第...原创 2019-05-05 17:55:04 · 1914 阅读 · 0 评论 -
hbase性能优化路线
本文主要针对hbase1.X版本的性能优化,优化涉及的方面有很多,下面分别以图表的形式阐述。hbase优化涉及面概览:linux系统优化:JVM优化:高可用&HFDS优化:配置参数优化:业务优化:客户端优化:大家可以根据自己的业务情况做具体某一些方面的调优。【附:hbase各种慢现象可能的原因】小伙伴们看完了觉得好的话,请不吝赐教、不吝赐赞!...原创 2019-04-09 18:51:56 · 657 阅读 · 1 评论 -
大数据平台的元数据管理
【概念解释】1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁...原创 2019-03-23 00:27:17 · 8477 阅读 · 0 评论 -
案例分享:如何使用yarn中的容量调度器
容量调度器capacity scheduler有以下特性:1,FIFO Scheduler的局限性,多个用户需要共享集群资源,集群资源以队列为单位划分;2,可以控制每一个队列资源最低保障和最高限制,最高使用限制是防止某个队列占用过多空资源,导致其他队列资源紧张;3,可以针对用户设置每个用户最高资源使用限制,以防止该用户滥用或者频繁使用资源;4,每一个队列内部也是按照先进先出的原则调度资源;...原创 2018-12-05 15:38:34 · 1790 阅读 · 0 评论 -
HIVE开启严格模式后如何使用msck修复分区
HIVE如何开启严格模式:hive-site.xml中添加:<property> <name>hive.mapred.mode</name> <value>strict</value>&a原创 2018-10-23 17:10:23 · 637 阅读 · 0 评论 -
Yarn调优之调整ResourceManager堆内存大小
ResourceManager挂了。查看到active的ResourceManager日志有如下内容:java.lang.OutOfMemoryError: Java heap space故障的原因是RM的堆内存空间size不够了。查看到活跃节点RM的最大对内存大小仍然是默认的1000Mb[hadoop@my-hdp-01 hadoop]$ ps aux | grep -i resourc...原创 2018-10-08 20:20:46 · 9801 阅读 · 3 评论 -
通过快照迁移hbase1.1.2的表数据(以clone_snapshot为例说明)
【为什么要用clone的方式复制出一张新表】有时候因为客户端的不当行为导致了丢失hbase表数据,如果全表恢复(restore_snapshot)则恢复之前必须禁用(disable)该表。但是我不想禁用该表,我想要这张表继续提供服务,怎么办?那么我们就采用克隆快照的方式生成另一张表即可。 【snapshot功能简介】使用hbase提供的快照(snapshot)功能,不需要停掉hba...原创 2018-04-13 22:02:03 · 2762 阅读 · 0 评论 -
Hbase在hdfs上的archive目录占用空间过大
hbase版本:1.1.2 hadoop版本:2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大,导致不停地发出hdfs空间使用率告警。【问题】告警信息 alert: datanode_storage is triggered 告警信息表明某个或某些data node 的HDFS存储空间使用率已超过阈值(我们设置的是80%),需要清理。[hdf...原创 2018-04-13 21:36:34 · 8015 阅读 · 3 评论 -
Kafka介绍, kafka主题的副本机制
1、Kafka概览Apache下的项目Kafka(卡夫卡)是一个分布式流处理平台,它的流行是因为卡夫卡系统的设计和操作简单,能充分利用磁盘的顺序读写特性。kafka每秒钟能有百万条消息的吞吐量,因此很适合实时的数据流处理。例如kafka在线日志收集系统可作为flume的实时消息sink端,再通过kafka的消费者将消息实时写入hbase数据库中。卡夫卡以topic分类对记录进行存储,每个记...原创 2017-04-28 11:52:23 · 9667 阅读 · 3 评论 -
记一次RegionServer节点的宕机事故[hbase1.1.2]
我们的大数据部署在金山云,hbase集群中的进程RegionServer(RS)死掉以后不会自动启动,只能手动拉起。因此我写了个定时监控脚本,一旦监测到RS死掉就立即启动,以保证故障节点能持续提供hbase数据读/写服务。立即启动的好处是不对其他RS造成过大压力,因为一个节点的RS死掉后,hmaster就会把此Region Server管理的region分配给其他健康的Region Server(...原创 2017-12-15 22:10:41 · 2154 阅读 · 0 评论 -
使用hbase hbck修复region中数据不一致问题
[hbase版本1.1.2][hbase@kmr-5b9c18fc-gn-7198aa8e-client-1-001 ~]$ ll -ttotal 788-rw-r--r--. 1 hbase hadoop 60614 Dec 27 18:22 20171227_8th_After_fixAssgnmentOf_should_end_with_an_empty_key_FORte原创 2017-12-28 21:37:22 · 18829 阅读 · 0 评论 -
HDFS的运行原理,如何实现HDFS的高可用
1 HDFS的运行机制HDFS集群中的节点分为两种角色,一种角色负责管理整个集群的元数据,是名称节点(name node);另一种角色负责存储文件数据块和管理文件数据块,是数据节点(datanode)。1.1 NameNode 1.1.1名称节点负责响应客户端的请求,负责管理整个文件系统的元数据。 1.1.2HDFS的内部工作机制对客户端是透明的,客户端对HD...原创 2017-04-05 08:55:44 · 11340 阅读 · 2 评论 -
解决某个RegionServer获取行锁失败[HBase1.1.2]
【现象】某个RegionServer的日志中,发现有以下异常:2017-12-13 03:19:33,953 WARN [B.fifo.QRpcServer.handler=0,queue=0,port=16020] regionserver.HRegion: Failed getting lock in batch put, row=F680A8D4CF43A6CC66507589B8原创 2017-12-14 18:12:30 · 2565 阅读 · 0 评论 -
hadoop2.7执行离线备份hbase根目录时报错Mismatch in length
[hdfs@hmaster-1 root]$ hadoop distcp hdfs://hdfs-ha/apps/hbase/data hdfs://hdfs-ha/backup/hbase_bk_20171222出现的错误摘要:Caused by: java.io.IOException:Mismatch in length of source:hdfs://hdfs-ha/apps原创 2017-12-22 22:51:50 · 974 阅读 · 0 评论 -
《大数据架构详解》读后感
《大数据架构详解》 ——读后感作者:朱洁 罗华霖出版商:中国工信出版社 电子工业出版社版次:2016年10月第1版印数:7001 ~ 12000册定价:69.00元本书花了大量笔墨讲了通信运营商的大数据应用案例及其使用的架构,这也不奇怪,因为作者是为通信运营商做大数据解决方案的。作者服务的运营商大数据平台架构,从上到下依次为———应用层 SQM、CSE、MSS、DMP,这些都是运营商特有的...原创 2017-12-21 20:51:50 · 2743 阅读 · 0 评论 -
处理org.apache.hadoop.hbase.client.ScannerTimeoutException
使用spark读取hbase数据成为rdd数据结构时,不论spark作业的运行模式是client和cluster都报了一个异常:org.apache.hadoop.hbase.client.ScannerTimeoutException【原因】没有在指定的时长内完成从HregionServer拉取完整数据到spark job客户端的内存当中,默认这个时间为是60000ms。为什么会超时原创 2017-09-20 12:16:29 · 1434 阅读 · 0 评论 -
一个hive数仓清洗小案例:单词统计
【需求】统计某一款产品的用户中,分别有多少用户是同一个年龄。例如25岁的有100人,60岁的有20人。// 我已提前在hive数据仓库中建表customers,也已经把本地文件加载到了hive仓库里hive> desc customers;OKid int ...原创 2017-03-24 12:56:01 · 1427 阅读 · 0 评论 -
Hbase架构概述
HBase实现了BigTable存储架构,是分布式的、可伸缩的数据库,适合存储非关系型的数据。Hbase的数据存储在HDFS,hbase和Hadoop之间的无缝集成保障了数据的可靠性(多个副本)如果数据存储需要更多的空间,只需要在hbase集群中加入新的HRegionServer节点即可,HBase会自动水平切分扩展,所以能承载“十亿行、百万列”的数据规模。下面对HBase架构中的各个角色原创 2017-05-06 19:09:20 · 863 阅读 · 1 评论 -
hive仓库和关系型数据库的对比
1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此专门针对 Hive 的特性设计了类 SQL的查询语言 HQL(发音“海口”)。熟悉 SQL 开发的开发者可以很方便的使用Hive 进行开发。2. 数据存储位置。Hive 是建立在Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中。而数据库则可以将数据保存在块设备或者本地文件系统中。3. 数据格式。Hive原创 2017-06-17 21:37:49 · 1267 阅读 · 0 评论 -
hadoop集群故障排除(定期更新)
故障一:某个datanode节点无法启动我是以用户名centos安装和搭建了一个测试用的hadoop集群环境,也配置好了有关的权限,所有者、所属组都配成centos:centos【故障现象】名称节点的3个进程都起来了,但是其中一个数据节点的DataNode进程没启动,就是说在该数据节点上通原创 2017-03-12 19:06:54 · 2857 阅读 · 0 评论 -
分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据
实现原理:客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。步骤:分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节原创 2017-05-02 14:03:10 · 3533 阅读 · 1 评论