Demo_chen-CSDN博客

原创 Kafka 的基础架构工作流程及文件存储机制

1. Kafka 的基础架构1）Producer ：消息生产者，就是向kafka broker发消息的客户端；2）Consumer ：消息消费者，向kafka broker取消息的客户端；3）Consumer Group （CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个消费者消费；消费者组之间互不影响。所有的消费者都...

2019-05-23 17:01:47 264

原创大数据技术 Kafka 集群安装部署快速入门

Kafka快速入门1 集群规划hadoop102 hadoop103 hadoop104zk zk zkkafka kafka kaf...

2019-05-23 16:37:04 200

原创 Zookeeper 实战分布式安装部署（开发重点）

（一）分布式安装部署1．集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2．解压安装（1）解压Zookeeper安装包到/opt/module/目录下[test@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/（2）同步/opt/m...

2019-05-23 10:45:34 161

原创大数据技术 ZooKeeper 内部原理

1 选举机制 1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。3）以一个简单的例子来说明整个选举的过程。假设有五...

2019-05-23 09:46:56 154

原创大数据技术 HiveSQL 中的开窗函数（窗口函数）

HiveSQL 窗口函数（开窗函数）1．相关函数说明OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。CURRENT ROW：当前行n PRECEDING：往前n行数据n FOLLOWING：往后n行数据UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING表示到...

2019-05-22 21:29:19 1217

原创大数据技术 Hive 的安装与配置

1．Hive安装及配置（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面[test@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/mod...

2019-05-20 19:50:19 391

原创大数据技术 Hive 的介绍

什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上Hive架...

2019-05-20 19:26:43 134

原创 Spark cluster 工作机制

Spark-cluster 工作任务执行流程模型在YARN Cluster模式下，任务提交后会和ResourceManager通讯申请启动ApplicationMaster，随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster就是Drive...

2019-05-17 14:03:25 200

原创 Spark 性能调优-----常规性能调优

常规性能调优 1常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定，标准的Spark任务提交脚本如代码清单2-1所示：代码清单2-1 标准Spark提交脚本/u...

2019-05-17 12:06:08 384

原创 Spark 从MySQL中读取和插入数据

在MySQL中创建 rdd 数据库创建 user（id, name, age）表添加测试数据（1,''zhangsan",20）,（2,''lisi",30），（3,''zhangsan",40）package com.bigdata.spark.Connectimport java.sql.{Connection, DriverMana...

2019-05-16 11:52:53 661

原创 SparkSql 中用户自定义聚合函数---强类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。强类型用户自定义聚合函数：通过继承Aggregator来实现强类型自定义聚合函数。强类型 Demo ：自定义求用户平均年龄的聚合函数...

2019-05-13 20:38:40 457

原创 SparkSql 中用户自定义聚合函数---弱类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。弱类型用户自定义聚合函数：通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。弱类型 Demo 自定义求用...

2019-05-13 20:34:26 256

原创从零开始搭 Hadoop 集群

内存4G，硬盘50G1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP，改主机名编辑vim /etc/sysconfig/networ...

2019-05-10 13:44:40 343

原创数据仓库构建拉链表之 Hive 操作

1. 什么是拉链表拉链表，记录每条信息的生命周期，一旦一条记录的生命周期结束，就重新开始一条新的记录，并把当前日期放入生效开始日期。如果当前信息至今有效，在生效结束日期中填入一个极大值（如9999-99-99 ） 2.为什么要做拉链表拉链表适合于：数据会发生变化，但是大部分是不变的。比如：订...

2019-05-09 16:01:10 819

Codedemo的博客