cclucc
码龄7年
求更新 关注
提问 私信
  • 博客:4,318
    4,318
    总访问量
  • 8
    原创
  • 1
    粉丝
  • 5
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2017-12-13

个人简介:吃吃喝喝人生辽阔

博客简介:

cclucc的博客

查看详细资料
个人成就
  • 获得4次点赞
  • 内容获得0次评论
  • 获得10次收藏
  • 博客总排名1,556,363名
创作历程
  • 8篇
    2018年
成就勋章
TA的专栏
  • 大数据
    6篇
  • spark
    3篇
  • kafka
    4篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hivesparketl
创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

83人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

spark常见问题分析

分析spark常见的问题不外乎oom:我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。execution内存是执行内存,文档中说join,aggregate都在这部分内存中执行,shuffle的数据也会先缓存在这个内存中,满了再写入磁盘,能够减少IO。其实map...
原创
发布博客 2018.09.21 ·
1380 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

kafka监控

编辑文章监控策略1、Kafka总体监控leader 选举频率:kafka.controller:type=ControllerStats,name=LeaderElectionRateAndTimeMs2、Kafka Broker监控kafka集群中Broker列表,broker运行状况,包括node下线,活跃数量Broker是否提供服务失败的生产消息请求数量:阈值?失败...
原创
发布博客 2018.09.21 ·
518 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

kafka学习笔记2

1、kafka分布式的情况下如何保证消息的顺序性kafka并不适用对数据时序性要求严格的场景Kafka的做法是提供消息队列,让生产者单往队列的末尾添加数据,让多个消费者从队列里面依次读取数据然后自行处理【生产】kafka的分布式单位是partition。同一个partition内的数据可以保证时序。不同partition之间无法保证消息的顺序性。可以设置producer生产messag...
原创
发布博客 2018.09.21 ·
672 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

kafka学习笔记1

下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示:clipboard (2).png当集群中新增2节点,Partition增加到6个时分布情况如下:clipboard (3).pngProducer在发布消息到某个Partition时,先通过ZooKeeper找到该Pa...
原创
发布博客 2018.09.21 ·
179 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

为什么 Kafka 那么快

一 .生产者生产数据1、顺序写入2、Memory Mapped Files(Kafka的数据并不是实时的写入硬盘,它充分利用了现代操作系统分页存储来利用内存提高I/O效率)它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上(操作系统在适当的时候)。写到mmap中的数据并没有被真正的写到硬盘,操作系统会在程序主动调用fl...
原创
发布博客 2018.09.21 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark源码分析之RDD

Spark 的五大核心要素包括:partitionpartitionercompute funcdependencypreferredLocationRDD每次通过Transformation(map、flatMap、reduceByKey等等)进行转换后都会得到一个新的RDD,本篇文章以ShuffledRDD和JdbcRDD、HadoopRDD为例子,下面来介绍一下:1、partition(1)...
原创
发布博客 2018.04.25 ·
274 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark源码分析之shufflemanager

1、shufflemanager的实现类:sortshufflemanagerSpark 0.8及以前 Hash Based Shuffle在Shuffle Write过程按照Hash的方式重组Partition的数据,不进行排序。每个map端的任务为每个reduce端的Task生成一个文件,通常会产生大量的文件(即对应为M*R个中间文件,其中M表示map端的Task个数,R表示reduce端的T...
原创
发布博客 2018.04.12 ·
275 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark源码分析之ExternalSorter

在SortShuffleWriter中调用ExternalSorter的两个方法insertAll和writePartitionedFile1】、blockManager2】、diskBlockManager3】、serializerManager4】、fileBufferSizespark.shuffle.file.buffer=32k5】、serializerBatchSize spark.s...
原创
发布博客 2018.04.12 ·
671 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏