自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Kafka 的基础架构 工作流程及文件存储机制

1. Kafka 的基础架构1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都...

2019-05-23 17:01:47 264

原创 大数据技术 Kafka 集群安装部署 快速入门

Kafka快速入门1 集群规划hadoop102 hadoop103 hadoop104zk zk zkkafka kafka kaf...

2019-05-23 16:37:04 200

原创 Zookeeper 实战 分布式安装部署 (开发重点)

(一)分布式安装部署1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)解压Zookeeper安装包到/opt/module/目录下[test@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)同步/opt/m...

2019-05-23 10:45:34 161

原创 大数据技术 ZooKeeper 内部原理

1 选举机制 1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3)以一个简单的例子来说明整个选举的过程。假设有五...

2019-05-23 09:46:56 154

原创 大数据技术 HiveSQL 中的开窗函数 (窗口函数)

HiveSQL 窗口函数(开窗函数)1.相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING表示到...

2019-05-22 21:29:19 1217

原创 大数据技术 Hive 的 安装与配置

1.Hive安装及配置(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面[test@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/mod...

2019-05-20 19:50:19 391

原创 大数据技术 Hive 的 介绍

什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive架...

2019-05-20 19:26:43 134

原创 Spark cluster 工作机制

Spark-cluster 工作任务执行流程模型在YARN Cluster模式下,任务提交后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster就是Drive...

2019-05-17 14:03:25 200

原创 Spark 性能调优-----常规性能调优

常规性能调优 1常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/u...

2019-05-17 12:06:08 384

原创 Spark 从MySQL中 读取 和插入 数据

在MySQL中 创建 rdd 数据库 创建 user(id, name, age)表 添加测试数据 (1,''zhangsan",20),(2,''lisi",30),(3,''zhangsan",40)package com.bigdata.spark.Connectimport java.sql.{Connection, DriverMana...

2019-05-16 11:52:53 661

原创 SparkSql 中用户自定义聚合函数---强类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 强类型用户自定义聚合函数:通过继承Aggregator来实现强类型自定义聚合函数。强类型 Demo :自定义求用户平均年龄的聚合函数...

2019-05-13 20:38:40 457

原创 SparkSql 中用户自定义聚合函数---弱类型

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。 弱类型用户自定义聚合函数:通过继承UserDefinedAggregateFunction来实现用户自定义聚合函数。 弱类型 Demo 自定义求用...

2019-05-13 20:34:26 256

原创 从零开始搭 Hadoop 集群

内存4G,硬盘50G1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP,改主机名 编辑vim /etc/sysconfig/networ...

2019-05-10 13:44:40 343

原创 数据仓库构建拉链表之 Hive 操作

1. 什么是拉链表 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。 如果当前信息至今有效,在生效结束日期中填入一个极大值(如9999-99-99 ) 2.为什么要做拉链表 拉链表适合于:数据会发生变化,但是大部分是不变的。 比如:订...

2019-05-09 16:01:10 819

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除