![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据的残余博客
残余博客
韩运畅
这个作者很懒,什么都没留下…
展开
-
数据同步的设计
线程模型,全量数据同步的线程池+增量数据同步的线程池+单个消费者线程进行拉取数据。线程池参数第一个线程池,管理全量同步任务的core size: 10max size:100存活时间:10ms阻塞队列:LinkedBlockingQueue,容量为50拒绝策略:拒绝策略为抛出异常线程工厂:实现了ThreadFactory接口,为线程个性化命名,方便排除bug第二个线程池,管理数据消费线程的core size: 0max size:50存活时间:0阻塞队列:LinkedBlocki原创 2020-12-30 14:24:12 · 402 阅读 · 0 评论 -
日志收集 Flume
1.flume结构:一个flume进程就是一个agent=source+channel+sink在source channel sink之间流动的是list[exent]event=header+byte payload,一般header是空的,传输数据的单位flume串联的坏处:一个坏了全坏 好处:多级缓冲 处理复杂的逻辑 chanel处理器不宜进行...原创 2020-02-15 21:57:50 · 200 阅读 · 0 评论 -
消息中间件-kafka
kafka架构模型:kafka在zk中保存的元数据目录:producer写流程:1. producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader2. producer 将消息发送给该 leader3. leader 将消息写入本地 log4. followers 从 leader pull 消息,写...原创 2020-02-12 16:18:14 · 127 阅读 · 0 评论 -
spark shuffle细则及调优
什么是Spark Shuffle• 问题:每一个key对应的value不一定都是在一个partition中,也不太可能在同一个节点上,因为RDD是分布式 的弹性的数据集,他的partition极有可能分布在各个节点上。• 如何聚合?– Shuffle Write:上一个stage的每个map task就必须保证将自己处理的当前分区中的数据相同的key写入一 个分区文件中,可能会写入多...原创 2020-02-11 18:12:41 · 107 阅读 · 0 评论 -
spark Executor上的内存管理
原创 2020-02-11 16:59:57 · 70 阅读 · 0 评论 -
saprk的reduce如何向map拉取文件
原创 2020-02-11 16:58:21 · 68 阅读 · 0 评论 -
MapReducer的shuffle机制
原创 2020-02-11 14:10:43 · 73 阅读 · 0 评论 -
spark任务调度源码分析
用到了,有向无环图,递归,栈,队列等原创 2020-02-11 13:19:30 · 100 阅读 · 0 评论 -
spark资源调度源码分析
原创 2020-02-11 12:55:59 · 86 阅读 · 0 评论 -
spark之初识算子
算子:完整的spark代码执行下来叫做一个application,有多个job个数与action算子相同。action触发流程:RDD-->RDD-->RDD-->RDD,不持久化情况下,每次action触发都会从头计算具体的算子算子分为两类,action算子与transformation算子,持久化算子属于transformation算子action算子不会...原创 2020-02-09 21:45:21 · 117 阅读 · 0 评论 -
spark之任务调度
从job触发到结束任务调度可以从一个Action类算子开始。因为Action类算子会触发一个job的执行。然后划分stage,以taskSet形式提交任务。什么是stage:如何划分stage,根据宽依赖:宽窄依赖:每个stage的数据处理模式:任务如何调度1.从job到task执行有哪几个主要的类...原创 2020-02-09 21:20:57 · 91 阅读 · 0 评论 -
初识scala
scala:1)类的声明 class cc(x:Int=1){ }2)object的声明 object gg(){ } 里面声明的变量与方法都是静态的,main方法在里面3)方法的声明 def 函数名(参数名:参数类型[=default值]):返回值类型={ }4)变量的声明 val:常量,推荐使用 var5)trait的...原创 2020-02-07 19:43:25 · 80 阅读 · 0 评论 -
hbase性能优化初探
表的设计 1. 考虑提前设置多个region‘ 2. 列族尽量少 3. raw key的设计:尽量短,有利于业务需求,尽量散列开考虑提前设置多个region‘默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创...原创 2020-02-06 16:05:34 · 100 阅读 · 0 评论 -
hbase之protocol buffer
Protobuf 是什么?是一种数据存储格式,能将一个对象描述为若干字节,同时也具备从它描述的若干字节解析为一个对象的能力。主要三个优点:1)用户要做的仅仅是给出数据的描述便可以生成对应源文件,无需自己开发想要的Reader和Writer2)采用Varint 等方式编码,将对象串行化后的数据比其它工具的要小3)以key-value方式存储,解析速度很快<资料>下面的wor...原创 2020-02-06 12:25:23 · 241 阅读 · 0 评论 -
zookeeper原理(一)
zookeeper:dataTree,日志文件等一、过半机制:>n/2脑裂(奇数个节点):考虑一个集群,一个机房有3台,一个机房有4台,如果两个机房网络断了,如果这时候再没有过半机制,那么这两个机房里的集群可能各选出一个leader,它们又开始了运行(这就叫脑裂),这时外界可能将数据存在一个集群,然后从另外的集群读取 相关的数据。而过半机制可以避免脑裂,但如果两机房的服务器数量一样多...原创 2020-02-05 20:17:15 · 152 阅读 · 0 评论 -
初识habse
1、hbase是什么,基于hdfs的非关系型数据库,可存储非结构化半结构化数据,实时,高性能hbase数据模型:2、hbase架构:client zookeeper HMaster regionserver regionserver regionserver dfsclient dfsclient dfsclie...原创 2020-02-04 19:43:12 · 185 阅读 · 0 评论 -
初识Hive
hive利用元数据将结构化文件映射成一张表数据的流入流出均是hdfs,元数据的存储在自己的关系型数据库中函数:内部表,外部表:默认创立内部表,删除内部表,元数据和数据一起删除,删除外部表只删除元数据分区:1.静态分区2.动态分区优点:有利于提高查询的速度分桶:应用场景:map join,数据抽样视图:类似于mysql,其本质是一条sql语句,可以将复杂sql语句简便化索...原创 2020-02-03 16:53:01 · 82 阅读 · 0 评论 -
hadoop重要组件
1.hdfs重要组件:ConfigrationFileSystemFileStatusBlockLocationPathIOUtils2.mapreduce重要组件Fileinputformat:计算切片信息的默认组件FileoutputformatMapperReducerLineRecordReader:默认进行切片读取的组件(initialize方法)MapperT...原创 2020-02-02 11:45:56 · 123 阅读 · 0 评论 -
mapreduce on yarn处理流程及配置
mapreduce:1.切片的概念,记录的概念,key-value,排序的概念,reduce的个数reduce原语2.hadoop1.x作业处理流程:01)client拿到作业,检查path是否合法,列出切片清单,将jar包,配置文件,切片清单上传至dfs通知jobtracker2)jobtracker(进行资源管理和任务调度,单点的)接收到通知后,根据各个机器资源的情况,为每个切...原创 2020-01-31 10:42:24 · 196 阅读 · 0 评论 -
hadoop+zookeeper配置主备模型的hdfs
hadoop-2.6.5+zookeeper3.4.6实现主备模型且自动管理nameNode failover时替换的面向计算的dfs注:我的四台虚拟机中的/etc/hosts文件中填写了这四台机器各自ip与主机名的对应这个模型需要001对002、003、004,002对001进行ssh免密钥操作模型:node001 node002 node003 node004namenode...原创 2020-01-29 20:17:17 · 157 阅读 · 0 评论