大数据
大数据技术之路---花火
这个作者很懒,什么都没留下…
展开
-
Flink1.9 和1.11 build源码详细教程
一、Requirementjavamavenflink源码包二、Flink1.9 build 源码1、Flink 1.9(without flink UI)1.1 下载flink1.9源码 wget https://archive.apache.org/dist/flink/flink-1.9.1/flink-1.9.1-src.tgz1.2 解压 tar zxvf flink-1.9.1-src.tgz1.3 mave...原创 2020-08-20 14:56:49 · 551 阅读 · 0 评论 -
Flink windows窗口之Windows Assigner和Windows Function
Windows窗口计算就是通过按照固定时间将数据切分成不同的窗口,然后对窗口内的数据进行计算。Flink DataStream API 将窗口抽象成独立的operator,并且在Flink DataStream内已经建了大多数窗口算子。每个算子中包含了Windows Assigner、Window Trigger(窗口触发器)、Evictor(数据剔除器)、Lateness(时延设定)、O...原创 2019-11-18 11:17:24 · 508 阅读 · 0 评论 -
Flink 的 DataStream 转换操作和DataSinks 数据输出
DataStream 转换操作 转换就是从一个或多个Datastream生成新的Datastream的过程。所有Datastream的转换操作可以分为单Single-Datastream、Multi-Datastream、物理分区三类类型。1、Single-Datastream 操作 Single-Datastream主要有Map、FlatMap、Filter、Ke...原创 2019-11-15 17:32:30 · 988 阅读 · 0 评论 -
kafka 动态参数
大家都知道kafka中有个server.properties文件用来配置参数的。我们今天来讲的是另外一种参数----动态参数。1、动态参数是什么? 动态参数从字面意思就能理解,意思就是在kafka运行过程中配置的参数。2、动态参数是保存在哪里的? 静态参数有个server.properties文件来保存,那么动态是放在哪儿来保存的呢? Kafka 将动...原创 2019-11-14 21:39:51 · 906 阅读 · 0 评论 -
kafka 控制器详解
一、控制器是什么东东? 控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群。集群中任意一台 Broker 都能充当控制器的角色,但是,在运行过程中,只能有一个 Broker 成为控制器,行使其管理和协调的职责。二、控制器是怎么选出来? Bro...原创 2019-11-14 21:17:02 · 599 阅读 · 0 评论 -
hive学习教程(三):hive的详细配置
六、hive的配置详解hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python原创 2017-08-29 19:55:36 · 373 阅读 · 0 评论 -
hive学习教程(四):hive的sql支持
七、hive的支持的sql目录 一、关系运算:… 4 1. 等值比较: =. 4 2. 不等值比较: <>. 4 3. 小于比较: <. 4 4. 小于等于比较: <=. 4 5. 大于比较: >. 5 6. 大于等于比较: >=. 5 7. 空值判断: IS NULL. 5 8. 非空判断: IS NOT NULL. 6 9. LIKE比较: LIKE. 6 10. JAVA原创 2017-08-29 19:57:57 · 2522 阅读 · 0 评论 -
hive学习教程(五):hive和Hbase整合
一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler-0.9.0.jar工具类,如下图 Hive与HBase通信示意图 二、具体步骤安装前说明 1、关于hadoop、HBase、Hive集群的搭建,请参考本人博文“基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布原创 2017-08-29 20:07:15 · 635 阅读 · 0 评论 -
hbase学习教程(二):HBase容错性和Hbase使用场景、Hbase读写过程详解
HBase容错性Write-Ahead-Log(WAL) 该机制用于数据的容错和恢复: 每个HRegionServer中都有一个HLog对象,HLog是一个实现Write Ahead Log的类,在每次用户操作写入MemStore的同时,也会写一份数据到HLog文件中(HLog文件格式见后续),HLog文件定期会滚动出新的,并删除旧的文件(已持久化到StoreFile中的数据)。当HRegi原创 2017-09-28 23:39:55 · 4428 阅读 · 0 评论 -
kafka系列:kafka基本架构
1、拓扑结构图2、kafka中相关组件的解释 (1)producer:消息生产者,发布消息到 kafka 集群的终端或服务。 (2)broker:kafka 集群中包含的服务器。 (3)topic:每条发布到 kafka 集群的消息属于的类别,即 kafka 是面向 topic 的。 (4)partition:partition 是物理上的概念,每个 topic 包含一个或...原创 2018-07-12 23:39:59 · 1175 阅读 · 1 评论 -
DataStream 编程模型(一) DataSources数据输入
DataSources 模块定义了DataStream API 中的数据输入操作,Flink 将数据源主要分为内置数据源和第三方数据源。其中内置数据源包含文件、Socket网络端口、集合类型数据,不需要引入第三方依赖。第三方数据源定义了数据的读写接口和丰富的第三方数据源连接器。例如Kafka 、Elasticsearch 等。同时用户也可以自定义实现Flink中数据接入函数So...原创 2019-08-06 21:17:34 · 671 阅读 · 0 评论 -
hive学习教程(二):hive的数据类型和hive的数据模型
四、hive的数据类型Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符原创 2017-08-29 19:54:40 · 510 阅读 · 0 评论 -
Hive学习教程(一):hive的介绍和hive技术架构
一、hive的介绍1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了原创 2017-08-29 19:47:49 · 671 阅读 · 0 评论 -
第二章、flume的安装
1、去官网上下载安装包 下载地址:http://flume.apache.org/download.html 2、解压安装包 tar -zxvf apache-flume-1.7.0-bin.tar.gz 3、配置环境变量 (1)vim /etc/profile 添加 export FLUME_HOME=/home/flume/apache-flume-1.7.0-bin e原创 2017-07-26 21:56:29 · 280 阅读 · 0 评论 -
storm 安装教程
搭建storm集群的步骤: 1、设置zookeeper集群 2、安装依赖到所有nimbus和worker节点 3、下载并解压storm发布版本到所有nimbus和worker节点 4、配置storm.yaml 5、启动相关后台进程1 、配置zookeeper集群 略2 、安装依赖到nimbus和worker节点 storm需要依赖的是: 1、Java 6 2、Py原创 2017-08-27 21:54:35 · 1070 阅读 · 0 评论 -
storm教程(一):storm基本概念和集群架构
一、storm 基本概念 对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性:原创 2017-08-27 22:08:33 · 1914 阅读 · 0 评论 -
storm教程(二):Storm Topology组件和Storm数据源和输出选择
Storm Topology组件前面的章节已经提到过,Storm集群中的任务称之为Topology。 对比Hadoop中的MapReduce job,mapper用于从数据源中获取数据,经过简单处理,以一定的格式传递给reducer,reducer负责后续处理。 类似的,Topology任务也要从数据源中获取数据,然后进行后续处理。在Topology中从外部数据源获取数据的组件,称之为Spout原创 2017-08-27 22:14:20 · 4245 阅读 · 0 评论 -
storm教程(三):用Java开发storm
1、操作模式开始之前,有必要了解一下Storm的操作模式。有下面两种方式。 本地模式 在本地模式下,Storm拓扑结构运行在本地计算机的单一JVM进程上。这个模式用于开发、测试以及调试,因为这是观察所有组件如何协同工作的最简单方法。在这种模式下,我们可以调整参数,观察我们的拓扑结构如何在不同的Storm配置环境下运行。要在本地模式下运行,我们要下载Storm开发依赖,以便用来开发并测试我们的拓扑原创 2017-08-27 22:47:45 · 16884 阅读 · 1 评论 -
storm教程(四):storm策略和storm并行度
storm策略storm里面有6种类型的stream grouping: 1.Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证每个bolt接收到的tuple数目相同。轮询,平均分配。 2. Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts, 而不同的userid则会被分配原创 2017-08-27 22:58:10 · 4938 阅读 · 0 评论 -
storm教程(五):storm消息的可靠性保障与acker机制、Thrift client 集群监控
消息的可靠性保障与acker机制Storm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制,以及作为用户如何使用好 Storm 的可靠性机制。 消息的“完整性处理”是什么意思 一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 word-count 拓扑:TopologyBuilde原创 2017-08-27 23:19:10 · 1688 阅读 · 1 评论 -
storm教程(六):Storm 和kafka的集成
我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不均匀的数据转换成均匀的消息流,从而和storm比较完善的结合,这原创 2017-08-27 23:51:15 · 2544 阅读 · 0 评论 -
hadoop分布集群搭建
主机名 IP Itcast 132 namenode zkfc Itcast02 138 datanode nodemanager zookeeper journalenode itcast03 130 datanode nodemanager zookeeper journalenode Itcast04 139原创 2017-08-28 22:45:14 · 589 阅读 · 0 评论 -
zookeeper安装教程(伪分布式和分布式)
伪分布式创建环境目录 ~ mkdir /home/conan/zoo/zk1 ~ mkdir /home/conan/zoo/zk2 ~ mkdir /home/conan/zoo/zk3新建myid文件 ~ echo “1” > /home/conan/zoo/zk1/myid ~ echo “2” > /home/conan/zoo/zk2/myid ~ echo “3” > /ho原创 2017-08-28 22:05:53 · 1092 阅读 · 0 评论 -
第一章、flume的介绍及原理
1. flume的背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一. 2.原创 2017-07-26 21:09:11 · 548 阅读 · 0 评论