2018年12月_程序员小陶

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Spark中foreachPartition和mapPartitions的区别

Spark中foreachPartition和mapPartitions的区别spark的运算操作有两种类型：分别是Transformation和Action，区别如下：Transformation：代表的是转化操作就是我们的计算流程，返回是RDD[T]，可以是一个链式的转化，并且是延迟触发的。Action：代表是一个具体的行为，返回的值非RDD类型，可以一个object，或者是一个数值，也...

2018-12-20 20:36:42 218

原创 kafka 数据可靠性深度解读

文章目录kafka 数据可靠性深度解读多分区、多副本多分区的设计的特点：kafak 分区 leader 机制kafka 数据可靠性深度解读多分区、多副本kafka 的消息保存在Topic中，Topic可分为多个分区，为保证数据的安全性，每个分区又有多个Replia。多分区的设计的特点：1.为了并发读写，加快读写速度；2.是利用多分区的存储，利于数据的均衡；3.是为了加快数据的恢复速率...

2018-12-13 21:45:35 433

原创 kafka 如何做到1秒发布百万级条消息?

kafka 如何做到1秒发布百万级条消息kafak 提供的生产端的API发布消息到一个 topic 或者多个 topic 的一个分区（保证消息的顺序性）或多个分区（并行处理，不能保证消息的顺序性）。topic 可以理解为数据的类别，是一个逻辑概念。维护一个Topic中的分区log，以顺序追加的方式向各个分区中写入消，每一个分区都是不可变的消息队列，数据由 k , v 组成，k 是 offset...

2018-12-13 21:42:18 770

原创 MR自定义二次排序

在一个数据文件中，首先按照key排序。在key相同的情况下，按照value大小排序的情况称为二次排序。自定义key ：NewKey实现比较规则自定义GroupingComparator方法在map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现...

2018-12-13 21:39:58 475

原创数据倾斜

文章目录数据倾斜什么是数据倾斜Map端倾斜(比较少见)Reduce端倾斜关联Join数据倾斜数据倾斜什么是数据倾斜数据在集群上处理时,会被分配到各个节点上,当数据分配不均匀时,个别节点的数据量特别多,会导致整个任务变慢,甚至出现内存溢出程序失败的情况。Map端倾斜(比较少见)Map端每个节点处理的数据量由InputFormat决定.对于输入数据是HDFS上的文件,FileInpu...

2018-12-13 21:39:08 394

原创 MR的原理和运行流程

文章目录MR的原理和运行流程Map的运行过程Reduce处理过程Shuffle过程MR运行过程Yarn && JobMR的原理和运行流程Map的运行过程以HDFS上的文件作为默认输入源为例（MR也可以有其他的输入源）block是HDFS上的文件块，split是文件的分片（逻辑划分，不包含具体数据，只包含这些数据的位置信息）。一个split包含一个或多个block，...

2018-12-13 21:37:50 23165 2

原创 HDFS的NameNode内存解析

概述从整个HDFS系统架构上看，NameNode是其中最重要、最复杂也是最容易出现问题的地方，而且一旦NameNode出现故障，整个Hadoop集群就将处于不可服务的状态，同时随着数据规模和集群规模地持续增长，很多小量级时被隐藏的问题逐渐暴露出来。所以，从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外，本文基于社区版本Hadoop-2.4.1[1][2]，虽然2.4.1之...

2018-12-13 21:36:56 300

原创解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;

解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行./spark-submit \–master spark://node01:7077 \–driver-memory 512m \ ...

2018-12-13 21:35:24 6839 1

原创 HBase 架构详解

Hbase框架介绍HBase是一个分布式的、面向列的开源数据库。不同点：l 和一般的关系数据库不同，hbase是一个适合于非结构化数据存储的数据库。l Hbase是基于列而不是基于行的模式。在分布式的生产环境中，HBase 需要运行在 HDFS 之上，以 HDFS 作为其基础的存储设施。HBase上层提供了访问的数据的 Java API 层，供应用访问存储在 HBase 的数据。在 ...

2018-12-06 10:24:19 296

hive 优化思维导图

hive 优化在面试以及工作中经常使用，我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人