大数据架构
孤独人生
我孤独,故我释然!!!
展开
-
Kafka配置详解
############################# System ##############################唯一标识在集群中的ID,要求是正数。broker.id=0#服务端口,默认9092port=9092#监听地址,不设为所有地址host.name=debugo01 # 处理网络请求的最大线程数num.networ...原创 2016-08-08 13:50:09 · 113 阅读 · 0 评论 -
Flink 操作
Apache Flink是一个支持有边界的和无边界的数据流的有状态计算的框架。因为很多流式应用被设计成在最短的停机时间内持续运行,所以一个流式处理器必须提供卓越的失败恢复能力,同时提供工具在应用运行的时候监控和维护他们。 Flink非常关注流式处理的操作方面。下面,我们说明一下Flink的失败恢复机制并且列出他的管理和监控运行程序的特性。 一、 24/7不间断地运行你的应用...原创 2018-07-18 23:40:06 · 793 阅读 · 0 评论 -
Kafka 文章大全
https://blog.csdn.net/u013573133/article/details/48142677原创 2018-03-28 14:11:41 · 169 阅读 · 0 评论 -
Storm的容错性
Storm有几种不同的守护进程。Nimbus调度worker,Supervisor运行和杀死worker,log viewer 提供对于日志的访问方式,UI展示集群的状态。 一、问:如果一个Worker死掉了,那么会发生什么?答:如果一个worker死掉了,那么supervisor会重启这个worker。如果这个worker在启动的时候持续失败,那么它将不能与Nimbus正常进行心跳...2017-12-19 21:46:43 · 187 阅读 · 0 评论 -
【转】Map Reduce & YARN
Map Reduce & YARN简介Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现...原创 2017-10-10 19:14:50 · 188 阅读 · 0 评论 -
消息队列入门理解
消息队列(Message Queue)允许应用程序通过相互之间发送消息来通信。消息队列在目标队列繁忙的时候,提供一个临时的消息存储。 下面我将从以下几个方面来介绍消息队列。1、什么是消息队列?2、使用消息队列可以带来什么好处?3、消息队列的基本分类 一、什么是消息队列?队列是一个线性的先进先出的等待处理的事物的集合。消息队列是在两个应用之间发送的消息的队列。它包...原创 2017-07-15 18:29:22 · 218 阅读 · 0 评论 -
大数据架构技术
下图是近来学习和用到的大数据方面的技术,现在做一个总结。并且在总结的过程中,也进行更加进一步的学习和了解。 以上为个人所接触到的大数据相关的一些技术,后续的章节将围绕这些技术展开,具体的介绍方式是从应用和原理两个方面进行。 1、大数据实时流架构(1) 消息队列消息队列是在不同的应用间做数据传递的,现在常用的主要包括Kafka,redis 队列,Rab...2017-05-19 11:59:33 · 426 阅读 · 0 评论 -
elasticsearch性能调优
集群规划独立的master节点,不存储数据, 数量不少于2数据节点(Data Node)查询节点(Query Node),起到负载均衡的作用Linux系统参数配置文件句柄Linux中,每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说,显然太小,通过修改/etc/security/limits.conf来增大打开最大句柄数* - nofile 6...原创 2016-11-08 14:46:31 · 534 阅读 · 0 评论 -
Elasticsearch2.X Doc values介绍
一、doc_values介绍doc values是一个我们再三重复的重要话题了,你是否意识到一些东西呢?搜索时,我们需要一个“词”到“文档”列表的映射排序时,我们需要一个“文档”到“词“列表的映射,换句话说,我们需要一个在倒排索引的基础上建立的“正排索引”这里的“正排索引”结构通常在其他系统中(如关系型数据库)被称为“列式存储”。本质上,它是在数据字段的一列上存储所有valu...原创 2016-11-08 14:03:14 · 178 阅读 · 0 评论 -
从Kafka日志拆分来看系统架构
下面是根据最近的工作内容来思考做事的方式,说是系统架构稍微有点标题党了,但是我感觉也可以说是广义的系统架构。 一、做铺垫 目前笔者在基础数据部门做实时计算相关的内容,近期接触到的主要工作是Kafka日志拆分,也就是把最基础的全量的日志Topic拆分成多个小的Topic,供业务方使用。 其主要目的为:让业务方只关注自己需要的数据,让业务更加简单和专注降低业务方和K...2018-08-01 14:36:17 · 560 阅读 · 0 评论