自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员小陶的大数据分享

技术 | 认知 | 思维

  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark中foreachPartition和mapPartitions的区别

Spark中foreachPartition和mapPartitions的区别spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也...

2018-12-20 20:36:42 218

原创 kafka 数据可靠性深度解读

文章目录kafka 数据可靠性深度解读多分区、多副本多分区的设计的特点:kafak 分区 leader 机制kafka 数据可靠性深度解读多分区、多副本kafka 的消息保存在Topic中,Topic可分为多个分区,为保证数据的安全性,每个分区又有多个Replia。多分区的设计的特点:1.为了并发读写,加快读写速度;2.是利用多分区的存储,利于数据的均衡;3.是为了加快数据的恢复速率...

2018-12-13 21:45:35 433

原创 kafka 如何做到1秒发布百万级条消息?

kafka 如何做到1秒发布百万级条消息kafak 提供的生产端的API发布消息到一个 topic 或者多个 topic 的一个分区(保证消息的顺序性)或多个分区(并行处理,不能保证消息的顺序性)。topic 可以理解为数据的类别,是一个逻辑概念。维护一个Topic中的分区log,以顺序追加的方式向各个分区中写入消,每一个分区都是不可变的消息队列,数据由 k , v 组成,k 是 offset...

2018-12-13 21:42:18 770

原创 MR自定义二次排序

在一个数据文件中,首先按照key排序。在key相同的情况下,按照value大小排序的情况称为二次排序。自定义key :NewKey实现比较规则自定义GroupingComparator方法在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现...

2018-12-13 21:39:58 475

原创 数据倾斜

文章目录数据倾斜什么是数据倾斜Map端倾斜(比较少见)Reduce端倾斜关联Join数据倾斜数据倾斜什么是数据倾斜数据在集群上处理时,会被分配到各个节点上,当数据分配不均匀时,个别节点的数据量特别多,会导致整个任务变慢,甚至出现内存溢出程序失败的情况。Map端倾斜(比较少见)Map端每个节点处理的数据量由InputFormat决定.对于输入数据是HDFS上的文件,FileInpu...

2018-12-13 21:39:08 394

原创 MR的原理和运行流程

文章目录MR的原理和运行流程Map的运行过程Reduce处理过程Shuffle过程MR运行过程Yarn && JobMR的原理和运行流程Map的运行过程以HDFS上的文件作为默认输入源为例(MR也可以有其他的输入源)block是HDFS上的文件块,split是文件的分片(逻辑划分,不包含具体数据,只包含这些数据的位置信息)。一个split包含一个或多个block,...

2018-12-13 21:37:50 23165 2

原创 HDFS的NameNode内存解析

概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之...

2018-12-13 21:36:56 300

原创 解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;

解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行./spark-submit \–master spark://node01:7077 \–driver-memory 512m \ ...

2018-12-13 21:35:24 6839 1

原创 HBase 架构详解

Hbase框架介绍HBase是一个分布式的、面向列的开源数据库。不同点:l 和一般的关系数据库不同,hbase是一个适合于非结构化数据存储的数据库。l Hbase是基于列而不是基于行的模式。在分布式的生产环境中,HBase 需要运行在 HDFS 之上,以 HDFS 作为其基础的存储设施。HBase上层提供了访问的数据的 Java API 层,供应用访问存储在 HBase 的数据。在 ...

2018-12-06 10:24:19 296

hive 优化思维导图

hive 优化在面试以及工作中经常使用,我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除