![](https://img-blog.csdnimg.cn/20181211113923683.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark / Hadoop生态系列
文章平均质量分 78
该专栏主要收录Spark Hadoop生态博客和学习笔记
小鹅鹅
兴趣使然
展开
-
大数据文件格式对比 Parquet Avro ORC 特点 格式 优劣势
背景在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。有三个文件格式用于Hadoop集群:Optimized Row Columnar (ORC)AvroParquetApache AvroAvro是一种远程过程调用和数据序列化框架,是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议,使用压缩二进制格式来序列化数据。原创 2020-05-27 17:04:43 · 7130 阅读 · 0 评论 -
HBASE Region数量增多问题描述及解决方案
文章目录HBASE Region数量增多问题描述及解决方案1. 问题描述1.1 HBase 分区概念1.2 region过多影响1.3 合理region数量2. 方案概述2.1 ROWKEY 修改方案细节2.1.1 Rowkey长度原则(最好不超过16字节)2.1.2 rowkey散列原则2.1.3 rowkey唯一原则2.1.4 时间戳反转2.1.5 整个rowkey如下(timestamp并不...原创 2020-05-06 19:34:20 · 4333 阅读 · 0 评论 -
Java连接HBase的正确方法及Connection创建步骤与详解
文章目录Java连接HBase的正确方法及Connection创建步骤与详解**Connection**是什么?连接HBase的正确姿势Connection 创建连接步骤及代码解析Java连接HBase的正确方法及Connection创建步骤与详解HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多,导致HBASE连接失...原创 2020-03-18 14:56:18 · 11743 阅读 · 3 评论 -
Hadoop集群运维相关笔记 hdfs参数设置调优等
文章目录1. DataNode服务经常僵死描述分析解决2. DataNode因数据盘损坏重启失败描述分析解决3. 优化Hadoop Balancer平衡的速度Ref本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,及相关的解决方案1. DataNode服务经常僵死描述集群一共设置了8个DataNode,经常不知道什么原因会导致其中3 4 个一直处于僵死状态,重启可以恢复单身过一段...原创 2020-02-11 16:38:07 · 2401 阅读 · 0 评论 -
HBase client 客户端重试机制
文章目录背景代码解析重要参数设置参数推荐背景在hbase集群故障时,hbase client无法连接region server的时候,因为重试参数配置问题,程序并不会直接抛出异常,而是会一直重试,导致异常报警没有触发。此篇文章讲述client的重试机制及参数配置。代码解析RpcRetryingCall.java 中 callWithRetries函数是Rpc请求重试机制的实现, 可以参考以...原创 2019-12-25 10:56:45 · 1992 阅读 · 0 评论 -
Hive 修改 查询 分区信息 列 及 表 语句 整理
文章目录1. 分区操作1.1 查询分区信息1.2 添加分区1.3 删除分区1.4 修改分区2.列操作2.1 添加列2.2 修改列3. 表操作3.1 创建外部表3.2 修改表属性3.3 表的重命名4. Ref1. 分区操作1.1 查询分区信息show partitions t_test;describe formatted t_test partition (sample_date="20...原创 2019-10-16 21:54:41 · 860 阅读 · 0 评论 -
Hbase Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记
1. 概述HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。HBase是一个数据模型,类似于Google Big Table设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。它是Hadoop的生态系统,提供对数据的随机实...原创 2019-01-11 18:12:20 · 2152 阅读 · 0 评论 -
HIVE 基本概念 数据单元 学习笔记
综述Hive是一个数据仓库基础工具,由Java编写,在Hadoop中用来处理结构化数据,可以把SQL查询转换为一系列在Hadoop集群上运行的作业。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive的SQL给予了用户多种方式来集成自己的功能,然后做定制化的查询,例如用户自定义函数(User Defi...原创 2018-12-11 21:14:00 · 1460 阅读 · 0 评论 -
Spark 基本概念及 jobs stages tasks 等 解释
基础概念理解Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点.Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。Cluster Manager集群的...原创 2018-11-05 19:54:07 · 2207 阅读 · 0 评论 -
Spark RDD / Dataset 相关操作及对比汇总笔记
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。0. 基本概念首先介绍一下基本概念,详情可以参考之前的博客:Spark 与 Hadoop 学习笔记 介绍及对比Databrick 's Blog on Spark Structured Streaming SummarySpark Structured Streaming + Kaf...原创 2018-10-25 16:09:19 · 1293 阅读 · 2 评论 -
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)spark 2.3.01. 概述Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。可以使用Dataset/DataFrame API 来表示 streaming a...原创 2018-09-30 20:57:08 · 14010 阅读 · 6 评论 -
Databrick 's Blog on Spark Structured Streaming Summary
此篇博客将翻译及总结Databrick三篇关于 Spark Structured Streaming的文章,原文可点击小标题蓝字Part1 实时数据使用Structured Streaming的ETL操作1.1 Introduction在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题: 1. 提供端到端的可靠性与正确性 2....原创 2018-08-28 14:42:37 · 1793 阅读 · 0 评论 -
Spark 与 Hadoop 学习笔记 介绍及对比
这篇博客将会简单记录Hadoop与Spark对比,及HDFS,MapReduce的基本概念,方便理解整个大数据处理框架。1. Hadoop1.1 背景Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others:...原创 2018-08-05 21:20:46 · 499 阅读 · 3 评论 -
Spark中RDD 持久化操作 cache与persist区别
环境/背景Spark 2.3.0 Scala 2.11 Java 1.8在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。接下来可以通过查看Spark的源码对比RDD.cache()与RDD.persist()的差别。cache 与 persist 对比首先从JavaRDD类中点进去...原创 2018-07-02 15:33:13 · 4133 阅读 · 0 评论 -
HDFS 基本概念及常用操作 学习笔记
目录基本概念读文件操作写文件操作可靠性常用命令Ref基本概念Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。HDFS集群主要由 NameNode ...原创 2018-12-09 21:08:16 · 344 阅读 · 0 评论 -
HBASE 技术细节 读取与写入 Region Split与合并介绍
文章目录1. Hbase的Region介绍1.1 region实例1.2 Region的寻址1.2.1 老的Region寻址方式1.2.2 新的Region寻址方式2. Hbase的写逻辑2.1 Hbase写入逻辑2.2 MemStore刷盘2.2.1 全局内存控制2.2.2 MemStore达到上限2.2.3 RegionServer的Hlog数量达到上限2.2.4 手工触发2.2.5 关闭Re...原创 2019-09-22 19:06:11 · 1950 阅读 · 0 评论 -
HBase客户端Write Buffer 介绍及设置
文章目录1. 什么时候需要Write Buffer?2. 如何配置使用Write Buffer?3. 如何确定每次flushCommits()时实际的RPC次数?4. 如何确定每次flushCommits()时提交的记录条数?5. Write Buffer有什么潜在的问题?6. 如何预估Write Buffer占用的内存?7. RefHBase客户端API提供了Write Buffer的方式,即...原创 2019-09-22 19:06:59 · 979 阅读 · 0 评论 -
HBASE BufferedMutator 批量写入使用举例与源码解析
文章目录1. 基本介绍2. BufferedMutator使用举例2.1 单次一张表批量写入多次多张表批量写入3 源码介绍3.1 主要类介绍3.2 源码过程3.2.1 BufferedMutator构建的过程3.2.2 数据发送的过程3.2.3 HRegionserver端处理4. 总结5. Ref1. 基本介绍BufferedMutator主要用来异步批量的将数据写入一个hbase表,就像H...原创 2019-09-14 12:44:46 · 7367 阅读 · 1 评论