Hadoop
文章平均质量分 73
吃鱼的羊
这个作者很懒,什么都没留下…
展开
-
实操 | Hive 数据倾斜问题定位排查及解决
实操 | Hive 数据倾斜问题定位排查及解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据转载 2022-05-13 18:26:32 · 3074 阅读 · 1 评论 -
YARN UI界面日志详解二——某个任务详细日志
https://blog.csdn.net/NC_NE/article/details/118281875一、任务日志在哪前面我们已经了解了ResourceManager UI界面参考上一篇文章YARN UI界面日志详解一,我们也看到了下图:就在Applications下的几个状态中,只要你是提交到yarn来管理的任务那一定在这几个状态中的某一个,所以弄清楚这几个状态的日志信息那我们就能知道某个任务的运行状况了。在实际工作中NEW、NEW_SAVING、SUBMITTED这三个用到的概率还转载 2022-05-13 18:23:22 · 1425 阅读 · 0 评论 -
mapreduce二次排序详解
mapreduce二次排序详解 - linzch3 - 博客园什么是二次排序待排序的数据具有多个字段,首先对第一个字段排序,再对第一字段相同的行按照第二字段排序,第二次排序不破坏第一次排序的结果,这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图(如果看不清可右键新标签页查看):图片部分数据参考自:Hadoop — MapReduce原理解析相关重点:分区(partitioning):使得具有相同Key值的键值.转载 2021-10-22 21:25:40 · 2229 阅读 · 0 评论 -
hadoop YARN中container最小和最大内存概念
http://blog.sina.cn/dpool/blog/s/blog_af56c5560102wwfn.html转载 2021-02-04 22:35:42 · 719 阅读 · 0 评论 -
调研公司内部Spark集群能承受多少并发量
https://blog.csdn.net/qq_29726869/article/details/82757381任务描述测试公司内部Spark集群能承受多少并发量Spark集群分配参数节点数:5cpu:20核内存:40g硬盘:500g每台节点分配参数cpu:4核内存:8g硬盘:100g测试案例(通过spark集群自带WEBUI进行监控任务提交运行状态)1.编写测试程序1,无限循环通过Spark restful API 提交任务到...转载 2021-01-30 21:00:23 · 423 阅读 · 0 评论 -
Hadoop Yarn详解
https://www.cnblogs.com/lzc-1105m/p/9984122.html摘要:一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn.转载 2021-01-30 20:57:37 · 484 阅读 · 0 评论 -
脑补|yarn能并行运行任务总数~
https://cloud.tencent.com/developer/article/1534332最近知识星球没动静主要原因是知识星球他们在做系统升级,我也很无奈,由此给球友带来的不安,深感抱歉。前几天球友问了我一个问题:请问浪总,集群400GB内存,提交了10个任务后就不能继续提交任务了, 资源还剩余300GB,CPU也很充足,完全满足新任务的资源,为啥就不能提交新任务了呢???各位同仁也可以先思考一下可能的原因及解决方案。估计很多人会说:很明显,新任务申请的资源,大于了可提供转载 2021-01-30 20:56:33 · 839 阅读 · 0 评论 -
大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?
https://wjrsbu.smartapps.cn/zhihu/article?id=297769662&isShared=1&_swebfr=11. hadoop它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用2. hive通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成Ma...转载 2021-01-28 21:51:38 · 679 阅读 · 0 评论 -
Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
https://wjrsbu.smartapps.cn/zhihu/article?id=257917645&isShared=1&hostname=baiduboxapp&_swebfr=1https://wjrsbu.smartapps.cn/zhihu/article?id=108392642&isShared=1&hostname=baiduboxapp&_swebfr=1https://blog.csdn.net/zhaolq1024/art转载 2021-01-27 22:10:02 · 387 阅读 · 0 评论 -
Hadoop的分布式缓存
https://www.cnblogs.com/twodoge/p/9762104.htmlHadoop的分布式缓存1.什么时Hadoop的分布式缓存答:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS中加载到内存中,这就是Hadoop分布式缓存机制。2.如何使用缓存机制答:在main方法中加载共享文件的HDFS路径,路径可以是目录也可以是文件。可以在路径末尾阶段追加 '#' +别名,在map阶段可以使用该别名。 这...转载 2021-01-27 21:50:29 · 342 阅读 · 0 评论 -
sqoop 导入增量数据到hive
https://www.cnblogs.com/Alcesttt/p/11432547.html版本hive:apache-hive-2.1.0sqoop:sqoop-1.4.6hadoop:hadoop-2.7.3导入方式1.append方式2.lastmodified方式,必须要加--append(追加)或者--merge-key(合并,一般填主键)创建mysql表并添加数据-- ------------------------------ Table s转载 2021-01-24 20:26:25 · 1190 阅读 · 0 评论 -
数据仓库中的拉链表(hive实现)
https://blog.csdn.net/weixin_40444678/article/details/81083614数据仓库中的拉链表(hive实现)前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何...转载 2021-01-24 20:23:12 · 454 阅读 · 0 评论 -
你真的了解全量表,增量表及拉链表吗?
https://my.oschina.net/u/4631230/blog/45627811Mysql数据准备第一天 9月10号数据1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,待支付,2020-09-10 14:20:11,2020-09-10 14:20:113,待支付,2020-09-10 16:20:11,2020-09-10 16:20:11第二天 9月11号数据1,待支付,2020-09-10 12:2...转载 2021-01-24 20:19:21 · 1216 阅读 · 0 评论 -
2020大数据面试题真题总结(附答案)
https://my.oschina.net/u/4631230/blog/4533362版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-06-13 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 一.转载 2021-01-24 20:11:45 · 23090 阅读 · 0 评论 -
详解MapReduce执行流程
https://my.oschina.net/u/4631230/blog/46824711mr原理 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;2为什么要用mapreduce 海量数据在单机上处理因为硬件资源限制,无法胜任 而...转载 2021-01-24 20:09:31 · 1856 阅读 · 0 评论 -
hdfs上传/下载文件过程详解
https://www.cnblogs.com/kyle-blog/p/14213575.htmlhttps://my.oschina.net/u/2969788/blog/4289020hdfs上传文件过程详解client端通知namenode要上传文件,namenode检查文件名是否已经存在,如果不存在通知可以上传,并且返回可以用于存储的datanode列表 client 切割文件为block块(默认大小128MB),向namenode请求上传block1,namenode返回可用的Dat转载 2021-01-11 22:16:27 · 1659 阅读 · 0 评论 -
HIVE拉链表实现
https://zhuanlan.zhihu.com/p/140404356背景https://www.cnblogs.com/lxbmaomao/p/9821128.htmlwww.cnblogs.com拉链表是针对数据仓库设计中表存储数据的方式而定义的,主要是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。拉链表相对来说应用场景比较有限,一般使用hive的分.转载 2021-01-06 12:11:55 · 1725 阅读 · 1 评论 -
实战|使用Spark结构化流写入Hudi
https://zhuanlan.zhihu.com/p/133316667欢迎关注微信公众号:ApacheHudi1. 项目背景传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战:小文件问题。不论是转载 2020-06-23 19:14:09 · 3539 阅读 · 0 评论 -
Apache Hudi:统一批和近实时分析的存储和服务
https://blog.csdn.net/wypblog/article/details/104890482?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecas转载 2020-06-23 18:12:40 · 254 阅读 · 0 评论 -
Kudu、Hudi和Delta Lake的比较
https://www.cnblogs.com/kehanc/p/12153409.html目录Kudu、Hudi和Delta Lake的比较 存储机制 读数据 更新数据 其他 如何选择合适的存储方案 Kudu、Hudi和Delta Lake的比较kudu、hudi和delta lake是目前比较热门的支持行级别数据增删改查的存储方案,本文对三者之间进行了比较。存储机制kudukudu的存储机制和hudi的写优化方式有些相似。kudu的...转载 2020-06-22 19:22:31 · 2853 阅读 · 0 评论 -
Apache+Hudi入门指南(含代码示例)
https://blog.csdn.net/h335146502/article/details/104485494/1. 什么是Apache Hudi一个spark 库大数据更新解决方案,大数据中没有传统意义的更新,只有append和重写(Hudi就是采用重写方式)使用Hudi的优点使用Bloomfilter机制+二次查找,可快速确定记录是更新还是新增更新范围小,是文件级别,不是表级别文件大小与hdfs的Blocksize保持一致数据文件使用parquet格式,充分利用列存的优势(dr转载 2020-06-22 19:02:33 · 1849 阅读 · 1 评论 -
有了HBase为什么还要Kudu?
https://cloud.tencent.com/developer/news/391226https://zhuanlan.zhihu.com/p/36949867本文主要简单介绍了一下Kudu,并在整体结构、数据存储结构和读写过程等方面上对HBase和Kudu这两款分布式存储系统进行大 体上的比较。Kudu通过要求完整的表结构设置,主键的设定,以列式存储作为数据在磁盘上的组织方式,更新和数据分开等技巧, 使得Kudu能够实现像HBase一样实现数据的随机读写之外,在HBase不太擅长的批量数据转载 2020-06-22 18:57:16 · 938 阅读 · 0 评论 -
Hudi 的工作原理
https://docs.amazonaws.cn/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html当 Hudi 与 Amazon EMR 结合使用时,您可以使用 Spark 数据源 API 或 Hudi DeltaStreamer 实用程序将数据写入数据集中。Hudi 将数据集组织到basepath下类似于传统 Hive 表的分区目录结构中。如何将数据布局为这些目录中的文件的具体细节取决于您选择的数据集类型。您可以选择“写入时复制 (CoW)”或..转载 2020-06-22 18:38:25 · 2755 阅读 · 0 评论 -
大数据文件格式梳理:Parquet、Avro、ORC
扫描优化的列存储格式,默认是parquet写优化的行格式,默认是avroParquet、Avro、ORC格式相同点基于Hadoop文件系统优化出的存储结构提供高效的压缩二进制存储格式文件可分割,具有很强的伸缩性和并行处理能力使用schema进行自我描述属于线上格式,可以在Hadoop节点之间传递数据不同点行式存储or列式存储:Parquet和ORC都以列的形式存储数据,而Avro以基于行的格式存储数据。 就其本质而言,面向列的数据存储针对读取繁重的分析工作负载进行了优化,而基.转载 2020-06-22 18:00:01 · 2037 阅读 · 0 评论 -
“行式存储”和“列式存储”的区别
https://www.jianshu.com/p/3d3950c9fb06我们知道当今的数据处理大致可分为两大类 联机事务处理 OLTP (on-line transaction processing) 联机分析处理 OLAP (On-Line Analytical Processing)OLTP 是传统关系型数据库的主要应用用来执行一些基本的、日常的事务处理比如数据库记录的增、删、改、查等等而 OLAP 则是分布式数据库的主要应用它对实时性要求不高,但处理的数据转载 2020-06-22 17:57:35 · 2780 阅读 · 0 评论 -
列式存储和行式存储的区别
https://blog.csdn.net/qq_26091271/article/details/517786751 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好,直接抄原文了):Ø Row-based storage stores atable in a sequence of rows.Ø Column-based storage ..转载 2020-06-22 17:56:51 · 696 阅读 · 0 评论 -
Apache Hudi 设计与架构最强解读
https://zhuanlan.zhihu.com/p/131210053本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。1.简介Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快转载 2020-06-22 17:29:28 · 1159 阅读 · 1 评论 -
Apache Hudi简介
https://blog.csdn.net/qq_19248065/article/details/1034811231、Hudi简介Hudi是Hadoop Updates and Incrementals的缩写,用于管理HDFS上的大型分析数据集存储,主要目的是高效的减少入库延时。Hudi是一个开源Spark三方库,支持在Hadoop上执行upserts/insert/delete操作。Hudi数据集通过自定义的InputFormat与当前的Hadoop生态系统(Hive、parquet、s转载 2020-06-22 17:28:21 · 488 阅读 · 0 评论 -
Hive合并小文件,减小map数
--限制Map,Reduce数set mapreduce.tasktracker.map.tasks.maximum=30; --每个nodemanager节点上可运行的最大map任务数,默认值2,可根据实际值调整为10~100;set mapreduce.tasktracker.reduce.tasks.maximum=30; --每个nodemanager节点上可运行的最...转载 2020-03-14 19:49:56 · 3587 阅读 · 0 评论 -
MapReduce map个数设置
https://www.cnblogs.com/SteveWesley/articles/10319735.html版权声明:本文为博主原创文章,转载请加上原文地址,谢谢! https://blog.csdn.net/Dr_Guo/article/details/51150278看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。先看一下这个图输入分...转载 2020-03-11 22:09:35 · 2422 阅读 · 0 评论 -
Hadoop中map数的计算
原文:http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.htmlHadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}s...转载 2020-03-11 22:07:03 · 209 阅读 · 0 评论 -
从一个经典案例看优化mapred.map.tasks的重要性
--bdk平台启用了输入文件和输出文件的自动合并, 缩小合并大小为64M,增加map数set hive.mapred.mode=nonstrict;set mapreduce.input.fileinputformat.split.minsize.per.node=64000000;set mapreduce.input.fileinputformat.split.minsize.per.r...转载 2020-03-11 22:05:45 · 1558 阅读 · 1 评论 -
Zookeeper的功能以及工作原理
https://www.cnblogs.com/felixzh/p/5869212.html1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeep...原创 2019-06-06 15:02:34 · 116 阅读 · 0 评论 -
这可能是把ZooKeeper概念讲的最清楚的一篇文章
http://developer.51cto.com/art/201809/583184.htm我本人曾经使用过 ZooKeeper 作为 Dubbo 的注册中心,另外在搭建 Solr 集群的时候,我使用到了 ZooKeeper 作为 Solr 集群的管理工具。前几天,总结项目经验的时候,我突然问自己 ZooKeeper 到底是个什么东西?想了半天,脑海中只是简单的能浮现出几句话:...转载 2019-06-06 15:04:02 · 252 阅读 · 0 评论 -
从0开始使用Docker搭建Spark集群
https://www.jianshu.com/p/ee210190224f?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术,朋友叫我直接学习Spark,英雄不问出处,菜鸟不问对错,于是我就开始了Spark学习。为什...转载 2019-06-18 10:26:11 · 2809 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
https://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map...转载 2018-07-25 20:29:45 · 306 阅读 · 0 评论 -
Hive内置提供的优化机制之一:MapJoin
我在用HiveQL完成第七周作业第二题(详情见http://f.dataguru.cn/thread-237102-1-1.html)时发现。HIVE仅仅用了一个Mapreduce Job就完成了任务。而我在用Java程序时却很难用一个Mapreduce Job来完成,最后用了二个JOB才完成。通过阅读有关资料才发现。这就是Hive内置提供的优化机制之一:MapJoin。在学Map-Red转载 2017-03-30 16:07:24 · 1529 阅读 · 0 评论 -
分布式服务框架 Zookeeper — 管理分布式环境中的数据
https://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/Zookeeper 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模...转载 2019-06-06 15:01:38 · 170 阅读 · 0 评论 -
shuffle过程
https://blog.csdn.net/qq_25460227/article/details/81322135转载 2019-01-09 16:58:01 · 170 阅读 · 0 评论 -
HDFS只支持文件append操作, 而依赖HDFS的HBase如何完成增删改查功能
1. HDFS的文件append功能早期版本的HDFS不支持任何的文件更新操作,一旦一个文件创建、写完数据、并关闭之后,这个文件就再也不能被改变了。为什么这么设计?是为了与MapReduce完美配合,MapReduce的工作模式是接受一系列输入文件,经过map和reduce处理,直接产生一系列输出文件,而不是在原来的输入文件上做原位更新。为什么这么做?因为直接输出新文件比原位更新一个旧文件高效...转载 2018-08-09 11:12:25 · 1412 阅读 · 0 评论