自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Kafka

Kafka的基础架构(一)简介Producer:消息的生产者,向kafka broker 发送消息的客户端consumer:消息的消费者,向kafka broker 订阅消息的客户端Consumer Group(CG):消费者组,组内的每个消费者负责消费不同分区的数据,且一个分区只能被一个消费者消费;组与组之间互不影响。Broker:每个kafka服务器就是一个broker,kafka...

2019-10-17 16:32:56 134

原创 Spark on Yarn

spark 提交到yarn 的具体的步骤一、首先,SparkSubmit 首先将命令行的参数进行封装 new SparkSubmitArguments , 之后准备提交环境 prepareSubmitEnvironment,进而运行doRunMain 方法,其方法主要是运行runMain方法,该方法中,加载指定的类,查询指定类中的main方法,并且调用指定类中的静态的main方法 (main...

2019-10-17 11:58:57 120

原创 HBase

HBase 的基本架构1、Region Server 实现类HRegionServerRegion的管理者;对于数据:get put delete对于Region:splitRegion compactRegion2、Master 它的实现类HMaster所有Region Server 的管理者;对于表:create delete alter对于Region...

2019-10-15 18:21:30 190

原创 Flume的基础架构

每日积累学习Flume的基础架构Source负责接收数据到flume Agent的组件;可以处理各种类型、各种格式的日志数据,ChannelSink

2019-10-11 20:11:54 277

原创 spark

每日积累DataFrame, DataSetDataFrame:类似RDD,是一个分布式数据容器;除数据以外,记录了数据的结构信息,即schema。DataFrame和RDD的区别例如RDD[User] spark不知道User的内部结构,然而DataFrame提供了具体的结构信息DataSet它时DataFrame API 的扩展;DataSet支持编解码器;样例类被用来在DataS...

2019-10-10 20:00:04 96

原创 Hadoop的优化

每日积累Hadoop的优化HDFS的小文件的影响(1)影响NameNode的寿命,因为文件的元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,每一个小文件都会生成一个Map任务1)从数据的输入方面优化(1)合并小文件:对小文件进行归档(Har)、自定义InputFormat 将文件存储为SequenceFile文件(2)采用CombineFileInput作为输入,解...

2019-10-10 15:20:49 185

原创 每日积累

每日记忆汇总Hive的优化1)MapJoin使用mapjoin 将小表全部加载到内存在map端进行join,避免reducer处理,因为reducer处理会产生大量的网络IO2)行列过滤列处理:尽量减少select * 的使用,使用分区过滤行处理:进行外关联时,如果将副表的过滤条件写在where后面,就会先将全表关联,之后再过滤。3)采用分桶4)采用分区5)合理设置map数(1...

2019-10-09 23:36:17 260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除