Bigdata
文章平均质量分 85
Relian哈哈
分享知识和分享苹果是不一样的,苹果会越分越少,而知识并不会因为分享而减少,知识的分享更能激荡出不一样的火花
展开
-
hive中排序函数row_number、rank、dense_rank的区别
row_number 排序字段值相同时,序号不同,下一个序号顺序自增rank 排序字段值相同时,序号相同,下一个序号跳跃自增dense_rank排序字段值相同时,序号相同,下一个序号顺序自增原创 2022-05-20 22:47:57 · 6051 阅读 · 1 评论 -
如何处理Spark数据倾斜
一、什么是数据倾斜在分布式集群计算中,数据计算时候数据在各个节点分布不均衡,某一个或几个节点集中80%数据,而其它节点集中20%甚至更少数据,出现了数据计算负载不均衡的现象。数据倾斜在MR编程模型中是十分常见的,用最通俗的话来讲,数据倾斜就是大量的相同key被分配到一个partition里,而其它partition被分配了少量的数据。这时候我们就认为是数据倾斜了二、数据倾斜的影响造成了“少数人累死,多数人闲死”的情况,这种情况是我们不能接受的,这也违背了分布式计算的初衷。集群中一个或几个节点原创 2022-04-04 00:22:45 · 7974 阅读 · 0 评论 -
Spark核心概念释义及基本运行流程
一个application包括driver program和executors,一个application应用可以有多个job组成,一个action算子对应一个job,一般而言,程序中有几个action算子就会产生几个job。一个job可以由多个stage组成,一个stage对应多个task,task由dirver发送到各个executor,task运行在executor中,exector以并行的方式执行task。每个Executor独占一个Container原创 2022-03-27 23:06:03 · 4008 阅读 · 0 评论 -
Spark中累加器的应用及场景
一、什么是累加器累加器(Accumulators)与广播变量(Broadcast Variables)共同作为Spark提供的两大共享变量,主要用于跨集群的数据节点之间的数据共享,突破数据在集群各个executor不能共享问题。而累加器主要定义在driver节点,在executor节点进行操作,最后在driver节点聚合结果做进一步的处理。二、常见的累加器Spark提供了三种常见的累加器,分别是LongAccumulator(参数支持Integer、Long)、DoubleAccumulat原创 2022-03-20 01:29:20 · 4539 阅读 · 0 评论 -
记一次Spark引擎执行Sql超时优化
前几天用spark引擎执行了一个较大的sql,涉及的表和数据量都不少,不同时间段执行了几次都超时,经过上网及分析,尝试解决了此问题,使用spark引擎测试几次大概都在半个小时左右完成,不再出现超时现象一、问题现象摘抄部分现场日志如下:2022-02-01 13:02:12 INFO 22/02/01 13:02:12 [dag-scheduler-event-loop] INFO DAGScheduler: ShuffleMapStage 28 (run at ThreadPoolExecuto原创 2022-02-22 22:22:10 · 6816 阅读 · 0 评论 -
解决hive表新增的字段查询为空null问题
一、问题点有一个hive外部表,分区字段是tp和month,新增了几个字段fee_org_id,applied_date_time,pop_coop_mode_type_cd,fee_company后,insert overwrite重跑分区数据,SELECT * FROM app.app_yhzz_pop_bill_indicator_result WHERE tp = 'yt' AND month = '2021-04'用hive引擎查询如下,新增的几个字段是null而用prest原创 2021-05-14 14:30:05 · 3775 阅读 · 1 评论 -
Flink中窗口的划分与应用
一、Window 分类1、数据集类型划分Flink根据上游数据集是否为KeyedStream类型,即是否使用keyBy(...),分为Keyed Window和Non-Keyed Window(1)KeyedWindow上游数据集如果是KeyedStream类型,即使用了keyBy(...),则调用DataStreamAPI的window()方法,数据会根据Key在不同的Task实例中并行分别计算,最后得出针对每个Key统计的结果。程序调用流程如下:stream ...原创 2020-10-06 01:51:45 · 1459 阅读 · 0 评论 -
Flink之DataStream的常用转换算子
1、Map [DataStream->DataStream](1)说明调用用户定义的MapFunction对DataStream[T]数据进行处理,形成新的Data-Stream[T],其中数据格式可能会发生变化,常用作对数据集内数据的清洗和转换。例如将输入数据集中的每个数值全部加 1 处理,并且将数据输出到下游数据集2、FlatMap [DataStream->DataStream](1)说明该算子主要应用处理输入一个元素产生一个或者多个元素的计算场景, 比较常见的是在原创 2020-10-05 00:49:13 · 1491 阅读 · 0 评论 -
Hive中数据导入与导出
1数据导入1.1向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表,可选项(3)inpath:表示加载数据的路径(4..原创 2020-07-05 19:22:32 · 303 阅读 · 0 评论 -
Apache Flink的特点与对比Spark与Storm优势
一、Flink简介1.1、Flink的定义Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.2、Flink的发展Flink在德语中是快速和灵敏的意思,用来体现流式数据处理器速度快和灵活性强等特点,因此使用棕红色松鼠图案其Logo。Flink在诞生在2010-2014 年间, 由柏林工业大学、 柏林洪堡大学和哈索普拉特纳研究所联合发起名为“Stratosphere原创 2020-06-20 19:26:03 · 1648 阅读 · 0 评论 -
kafka简述与集群配置
一、kafka简述1、简介kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。2、集群介绍(1)Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的server,负责处理消息读、...原创 2018-06-16 12:57:18 · 33720 阅读 · 0 评论 -
Spark中的广播变量与累加器
Spark两种共享变量:广播变量(broadcast variable)与累加器(accumulator),广播变量常用来高效分发较大的对象,而累加器用来对信息进行聚合。共享变量出现的原因:通常在向 Spark 传递函数时,比如使用map或reduce传条件或变量时,在driver端定义变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值driver端的对应变量并不...原创 2019-01-13 01:38:44 · 743 阅读 · 0 评论 -
CDH5.12启动YARN报错dictionary update sequence element #99 has length 1; 2 is required
1、错误再现直接看到Service has only 0 ResourceManager roles running instead of minimum required 1这句话意思是仅仅启动了0个RM,但是最少启动1个。不是错误原因,只是错误结果点击下拉菜单,继续往下边看,发现如下错误,如下图所示Error found before invoking superviso...原创 2018-11-21 16:24:06 · 2505 阅读 · 0 评论 -
Cloudera Management添加spark2服务
用Cloudera Management管理集群时, 有时候在我们已经搭建了cdh版的集群, 又要用到spark2服务,在yarn上跑实时任务,而cdh集群中cdh中不包含spark2服务,因此需要另外下载。目录一、下载spark2的parcel包二、上传至服务器三、添加spark服务一、下载spark2的parcel包1、去这里http://archive.cl...原创 2018-10-20 22:56:56 · 3931 阅读 · 7 评论 -
HBase应用与发展之HBase RowKey与索引设计
本文来自于2018-09-15在深圳举办第五次HBase Meetup会议,毕杰山,华为云CloudTable(表格存储服务)主任工程师,长期聚焦于HBase及其它开源NoSQL技术,对各种分布式存储技术(KeyValue存储,文档存储,图存储,搜索引擎,时序/时空数据库等)抱有浓厚的兴趣RowKey设计可以说是一个非常基础的话题,因为每一个HBase的使用/开发人员,都是从表/RowKey设...转载 2018-10-01 01:15:11 · 529 阅读 · 0 评论 -
HBase运维实践-聊聊RIT的那点事
转载自范欣欣个人博客:http://hbasefly.com/相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。正所谓“恐惧来源于未知”,不知所措意味着我们对RIT知之甚少,然...转载 2018-09-14 01:11:42 · 883 阅读 · 0 评论 -
hadoop2.74+zookeeper3.4.10+hbase1.2.6HA集群搭建
之前介绍了hadoop2.7.4,zookeeper3.4.10,hbase1.2.6集群的搭建,这种集群只有一个master作为NameNode,一旦master挂机,整个集群就会瘫痪。为了避免这种情况的出现,就要用到backup-master,即开启两个NameNode,一旦master出故障,backup-maser就会立即接管master的工作,使集群保持正常工作,就是HA(High Av...原创 2017-09-19 16:31:10 · 900 阅读 · 0 评论 -
linux 安装配置zookeeper
转自:http://www.cnblogs.com/tonylovett/p/5227973.htmllinux 安装配置zookeeper1.什么是zookeeper ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、...转载 2017-09-16 21:24:58 · 250 阅读 · 0 评论 -
hadoop2.74+zookeeper3.4.10+hbase1.2.6完全分布式搭建
hadoop2.74+zookeeper3.4.10+hbase1.2.6完全分布式搭建原创 2017-09-16 16:56:23 · 979 阅读 · 0 评论 -
spark2.2.0集群配置
(1)Local多用于本地测试,如在eclipse,idea中写程序测试等。(2)StandaloneStandalone是Spark自带的一个资源调度框架,它支持完全分布式。(3)YarnHadoop生态圈里面的一个资源调度框架,Spark是可以基于Yarn来计算的,最流行。(4) Mesos一种资源调度框架,支持docker,前景最好原创 2018-06-23 01:01:50 · 513 阅读 · 1 评论 -
hive的三种模式及配置
hive依赖于hadoop集群和mysql数据库,hadoop集群安装不在详述,mysql见3(3)1、配置分布 NameNode DataNode Zookeeper DFSZKFC JournalNode hive(单用户) hive(多用户) mysql node01 1 1 ...原创 2018-06-24 20:02:39 · 4368 阅读 · 0 评论 -
初识sparkCore
一、概念RDD(Resilient Distributed Dataset),弹性分布式数据集 ,是分布式内存的一个抽象概念。二、RDD的五大特性1、RDD是由一系列的partition组成的。partition一般有三种方式产生 (1)从Scala集合中创建,通过调用SparkContext#makeRDD或SparkContext#par...原创 2018-07-11 23:08:34 · 2766 阅读 · 0 评论 -
hbase shell基本操作命令
1、创建表#创建表t_task_log,其他保持默认create 't_task_log', 'data'#创建表t_task_log,列族data,并预分区[0,f],预分区根据row的业务设计create 't_task_log', 'data', SPLITS => ['0', '1','2', '3','4', '5','6','7','8','9','a', 'b',...原创 2018-07-12 14:43:33 · 307 阅读 · 0 评论 -
初识SparkSQL
一、简介1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行...原创 2018-07-26 23:48:18 · 283 阅读 · 0 评论 -
hbase生存期TTL的设置
TTL简述TTL缩写Time To Live,即生存期。TTL是作用于列族的,它设置了一个基于时间戳的临界值, 内部的管理会自动检查TTL值是否达到上限,在major合并过程中时间戳被判定为超过TTL的数据会被自动删除。TTL参数的单位是秒,默认值是Integer.MAX_VALUE,即2^31-1=2 147 483 647 秒,大约68年。使用TTL默认值的数据可以理解为永久保存。...原创 2018-07-20 18:00:10 · 27099 阅读 · 10 评论 -
Hbase数据模型与存储结构
一、Hbase简介Hbase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。依托Hadoop-HDFS作为其文件存储系统,利用MapReduce来处理海量数据,用Zookeeper作为其分布式协同服务,主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)。二、 Hbase数据模型1、存储模型分布下边表示了一行,三列的数据,CF1、CF2、CF3是三个...原创 2018-09-02 00:32:10 · 18873 阅读 · 0 评论 -
离线搭建cdh5.12.2集群
一、安装环境准备1、服务分布一览表 hostname Server Agent MySQL NN DN RM NM JN ZK DFSZKFC node01 1 1 ...原创 2018-08-26 11:51:36 · 1094 阅读 · 0 评论 -
Java API HbaseUtil工具类
不知不觉,使用hbase一年有余,今天就把hbase 提供的Java API总结一下,虽然不够全,方便个人以及小伙伴们日后使用1、maven pom坐标引入jar<repositories> <!--cloudera仓库地址--> <repository> <id>cloudera</...原创 2018-09-02 21:28:07 · 6127 阅读 · 0 评论 -
Hbase查询性能优化
Hbase虽然能提供海量数据的实时读写,但是一旦数据量非常大,查询延迟也会非常高,所以要做好优化工作。一、表结构设计1、列族越少越好(1)列族(cf)数量,在内存结构中一个cf对应一个store区域,一个store中又存在多个storefile小文件,小storefile是不断合并新的大的storefile,数据量大了,storefile自然会多,合并任务也自然增多,会降低性能,增加列...原创 2018-09-09 02:02:14 · 8558 阅读 · 0 评论 -
HBase应用实践专场-HBase问题排查思路
转载自HBase技术社区,http://www.hbase.group/article/49原文来自 中国HBase技术社区第3届 MeetUp 杭州站 范欣欣的分享范欣欣,网易杭州研究院技术专家,就职于网易研究院后台技术中心数据库技术组专注于HBase的开发运维,热衷于MySQL等相关数据库技术HBCK - HBCK检查什么?(1)HBase Region一致性 集群中...转载 2018-09-12 12:26:12 · 537 阅读 · 0 评论 -
flume组合模式之高可用配置
一、flume简介1、概念简述Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡。并且它拥有非常丰富的组件。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 S...原创 2018-06-18 13:58:16 · 8775 阅读 · 10 评论