![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 87
木给哇啦丶
这个作者很懒,什么都没留下…
展开
-
在分布式系统中,如何生成全局唯一的 ID?SnowFlake算法了解一下。
随着互联网的高速发展,信息时代数据增速加快,为了缓解传统关系型数据库的单点压力以及处理能力,我们不得不考虑分布式架构,在此背景下为了记录数据的唯一性,往往需要一个全局唯一 ID,那我们如何获取呢?方法一:UUID UUID 是通用唯一识别码 (Universally Unique Identifier),在其他语言中也叫 GUID ,可以生成一个长度 32 位的全局唯一识别码。为了保证 UUID 的唯一性,规范定义了包括网卡MAC 地址、时间戳、名字空间(Na...原创 2021-09-02 17:11:05 · 598 阅读 · 0 评论 -
Hadoop Mapreduce Counters详解
以下文件系统计数器的含义 FILE_BYTES_READ FILE_BYTES_WRITTEN FILE_READ_OPS FILE_LARGE_READ_OPS FILE_WRITE_OPS HDFS_BYTES_READ HDFS_BYTES_WRITTEN HDFS_READ_OPS HDFS_LARGE_READ_OPS HDFS_WRITE_OPS FILE_BYTES_READ 是本地..原创 2020-07-31 10:33:15 · 602 阅读 · 0 评论 -
Spark参数spark.executor.memoryOverhead与spark.memory.offHeap.size的区别
最近疑惑一个问题,sparkexecutor的堆外内存问题,堆外内存很好理解,这里不再解释,疑惑的是它的设置,看过官网就知道设置堆外内存的参数为spark.executor.memoryOverhead与spark.memory.offHeap.size(需要与 spark.memory.offHeap.enabled同时使用),其中这两个都是描述堆外内存的,但是它们有什么区别么?因为对两个参数不是很理解,所以我在集群上找了个任务,对这两个参数进行研究。我是通过storage...原创 2020-06-11 22:11:31 · 21672 阅读 · 8 评论 -
Hive优化十大原则
一. 表连接优化1. 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_name) */select /*+ MAPJOIN(time_dim) */ count(1) from store_sales join time_dim on (ss_sold_time_sk = t_time_sk)或者使用参数set hive.auto.con...原创 2020-06-07 21:59:47 · 565 阅读 · 0 评论 -
Spark中Executor、Task、Stage、Job的关系
Spark重点关键字官方文档入口: http://spark.apache.org/docs/latest/cluster-overview.html Application 基于Spark的用户程序。由集群上的Driver program和Executor组成。 Application jar 一个包含用户的Spark应用程序的jar。在某些情况下,用户将希望创建一个包含其应用程序及其依赖项的“uberjar”。...原创 2020-06-04 22:31:22 · 4455 阅读 · 0 评论 -
Spark Executor 内存管理
本文主要对 Executor 的内存管理进行分析,下文中的 Spark 内存均特指 Executor 的内存堆内内存和堆外内存作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,此外spark还引入了堆外内存(不在JVM中的内存),在spark中是指不属于该executor的内存。堆内内存:由 JVM 控制,由GC(垃圾回收)进行内存回收,堆内内存的大小,由 Spark 应用程序启动时的 executor-memory 或 spark.executo...原创 2020-06-04 21:23:06 · 2358 阅读 · 0 评论 -
原生Hadoop HA集群搭建配置
1. 概述在hadoop2.0之前,namenode只有一个,存在单点问题(虽然hadoop1.0有secondarynamenode,checkpointnode,buckcupnode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。hadoop2.0的HA机制官方介绍了有2种方式,一种是NFS(Network File System)方式,另外一种是QJM(Quorum Journal Manager)方式2 基本原理hadoop2.0的HA 机制有两个namenode..原创 2020-05-27 23:00:55 · 304 阅读 · 0 评论 -
MapReduce与Spark On Yarn资源竞争时,为何Spark总能抢占更多资源?
问题简述:我们日常开发中,有时会在yarn队列中发现一个现象,spark任务跑得很舒服,而且占了很多资源,MR任务拿不到资源一直卡在那里,提交MR的同事就很气,抱怨spark抢占资源,实际真的是这样么?我们针对这个问题进行以下探究。常见现象如下,资源紧张时比较常见,看如图中的Spark任务持有的Container普遍多于MR任务持有的Container有的小伙伴可能没有耐心,咱们先给下结论!!!(文章结尾还有提升竞争力优化思路)不是的,并不是Spark抢占资源,而是MR和Spark模型决定的。原创 2020-05-26 23:09:12 · 760 阅读 · 0 评论 -
大数据是什么?大数据的定义?
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。 --2015年国务院公布《促进大数据...原创 2020-05-10 22:07:46 · 4009 阅读 · 0 评论 -
Hive skew Join(数据倾斜) 的解决方案
为什么会数据倾斜?由于Hive 在join的时候会将相同的key 在最后都汇聚到同一个Reduce 进行处理 , 所以当Join 操作中某个表中的一些Key 数量远远大于其他,则处理该Key的Reduce 将成为瓶颈 .如 : select a.* , b.* from table_a a join table_b b on a.id =b.id ; 如果table_a中的id数量远...原创 2020-01-30 13:40:58 · 5875 阅读 · 7 评论 -
Hive MapReduce异常Job initialization failed: java.io.IOException: Split metadata size exceeded
namenode: HDFS的文件元信息,包括位置、大小、分块信息等,保存在NameNode的内存中的,每个对象大约占用150个字节。问题描述:hive计算时,数据输入文件的索引总量超过集群限制(10M),导致无法进行计算,job抛错源码剖析:hive.index.compact.query.max.entries: 使用压缩索引查询时能读到的最大索引项数, 默认是10000000;负值代...原创 2020-01-30 13:37:25 · 742 阅读 · 0 评论 -
Hive MapReduce小文件问题异常处理
namenode: HDFS的文件元信息,包括位置、大小、分块信息等,保存在NameNode的内存中的,每个对象大约占用150个字节。问题描述:hive计算时,数据输入文件的索引总量超过集群限制(10M),导致无法进行计算,job抛错源码剖析:hive.index.compact.query.max.entries: 使用压缩索引查询时能读到的最大索引项数, 默认是10000000;负值代...原创 2020-01-30 13:31:29 · 225 阅读 · 0 评论 -
hive中count&sum的区别
首先创建一张测试表 >create table tmp.guanwm_test (a string, b int);>insert into table tmp.guanwm_test values ("a", 1);>insert into table tmp.guanwm_test values ("b", 2);>insert into table...原创 2020-01-30 13:21:10 · 1466 阅读 · 0 评论 -
hive count distinct count(distinct Columns) Columns为多列时慎用,有坑!!!
1,问题 表中实际无重复数据,但是经过count(distinct imei,wifi,ssid),数据量变少了。2,原因 distinct 多列时任意列为null值,均返回null,hive的count()函数对空值是不做处理的,所以数据减少3,验证 4,解决办法 4.1,将distinct后列用小括号括起来(所有列均为null...原创 2020-01-30 13:18:37 · 3235 阅读 · 0 评论 -
hadoop fair scheduler配置和使用
1,配置准备 hadoop-yarn-server-resourcemanager-2.6.0.jar2,属性说明 2.1 可放置在yarn-site.xml中的属性* yarn.scheduler.fair.allocation.file* * 路径配置文件。分配文件是一个XML清单描述队列和它们的属性,除了某些政策的默认值。此文件必须在下一节原创 2016-09-10 23:16:02 · 564 阅读 · 0 评论