自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Kafka

Kafka的基础架构 (一)简介 Producer:消息的生产者,向kafka broker 发送消息的客户端 consumer:消息的消费者,向kafka broker 订阅消息的客户端 Consumer Group(CG):消费者组,组内的每个消费者负责消费不同分区的数据,且一个分区只能被一个消费者消费;组与组之间互不影响。 Broker:每个kafka服务器就是一个broker,kafka...

2019-10-17 16:32:56 129

原创 Spark on Yarn

spark 提交到yarn 的具体的步骤 一、 首先,SparkSubmit 首先将命令行的参数进行封装 new SparkSubmitArguments , 之后准备提交环境 prepareSubmitEnvironment,进而运行doRunMain 方法,其方法主要是运行runMain方法,该方法中,加载指定的类,查询指定类中的main方法,并且调用指定类中的静态的main方法 (main...

2019-10-17 11:58:57 115

原创 HBase

HBase 的基本架构 1、Region Server 实现类HRegionServer Region的管理者; 对于数据:get put delete 对于Region:splitRegion compactRegion 2、Master 它的实现类HMaster 所有Region Server 的管理者; 对于表:create delete alter 对于Region...

2019-10-15 18:21:30 186

原创 Flume的基础架构

每日积累学习 Flume的基础架构 Source 负责接收数据到flume Agent的组件;可以处理各种类型、各种格式的日志数据, Channel Sink

2019-10-11 20:11:54 267

原创 spark

每日积累 DataFrame, DataSet DataFrame:类似RDD,是一个分布式数据容器;除数据以外,记录了数据的结构信息,即schema。 DataFrame和RDD的区别 例如RDD[User] spark不知道User的内部结构,然而DataFrame提供了具体的结构信息 DataSet 它时DataFrame API 的扩展;DataSet支持编解码器;样例类被用来在DataS...

2019-10-10 20:00:04 93

原创 Hadoop的优化

每日积累 Hadoop的优化 HDFS的小文件的影响 (1)影响NameNode的寿命,因为文件的元数据存储在NameNode的内存中 (2)影响计算引擎的任务数量,每一个小文件都会生成一个Map任务 1)从数据的输入方面优化 (1)合并小文件:对小文件进行归档(Har)、自定义InputFormat 将文件存储为SequenceFile文件 (2)采用CombineFileInput作为输入,解...

2019-10-10 15:20:49 180

原创 每日积累

每日记忆汇总 Hive的优化 1)MapJoin 使用mapjoin 将小表全部加载到内存在map端进行join,避免reducer处理,因为reducer处理会产生大量的网络IO 2)行列过滤 列处理:尽量减少select * 的使用,使用分区过滤 行处理:进行外关联时,如果将副表的过滤条件写在where后面,就会先将全表关联,之后再过滤。 3)采用分桶 4)采用分区 5)合理设置map数 (1...

2019-10-09 23:36:17 254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除