缓存
wyc_595998412
希望在今后5年实现以下目标:1、读最好的书 2、见最优秀的人 3、走一条属于自己的路。
展开
-
kafka
介绍ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实时流数据管道 构建转换或响应数据流的实时流应用程序要了解Kafka如何做这些事情,让我们深入探讨Kaf...翻译 2018-08-26 12:41:11 · 241 阅读 · 0 评论 -
kafka集群的安装及数据的导入导出
快速开始本教程假设您刚刚开始,并且没有现有的Kafka或ZooKeeper数据。由于Kafka控制台脚本对于基于Unix和Windows的平台是不同的,因此在Windows平台上使用bin\windows\而不是bin/将脚本扩展名更改为.bat。第1步:下载代码下载 2.0.0版本并解压缩它。 1 2 > tar -xzf kafka_2...翻译 2018-08-26 12:47:20 · 1439 阅读 · 0 评论 -
spark调优
性能调优 分配更多资源 1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量1.1.2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-s...原创 2018-08-26 15:32:16 · 566 阅读 · 0 评论 -
RDD
中间操作(Transformations)map 用途 返回每个元素经过传入的函数func处理后形成的新分布式数据集 使用示例 map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U] scala> val distData = sc.parallelize(Array(1,2,3,4,5))distDa...翻译 2018-08-25 20:43:29 · 191 阅读 · 0 评论 -
Kafka(内部详解)如何保证数据的一致性
数据一致性保证一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset)对于Leader新收到的msg,client不能立刻消费,Leader会等待该消息被所有ISR中的re...原创 2018-09-07 19:42:48 · 17280 阅读 · 0 评论 -
Flume + Kafka +HDFS构建日子系统实例
Flume + kafka + HDFS构建日志采集系统 Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解,本文只简述如何构建使用Flume + kafka + HDFS构建一套...原创 2018-09-16 18:04:16 · 530 阅读 · 0 评论