![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
_梓杰_
保持热爱,奔赴山海
展开
-
Presto 介绍
Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎; 它被设计为用来专门进行高速、实时的数据分析,以弥补 Hive 在速度和对接多种数据源上的短板;专门为交互式查询所设计,提供分钟级乃至亚秒级低延时的查询性能。1.1 Presto 架构 Presto 是典型的 MPP 架构,由一个 Coordinator 和多个 Worker 组成,其中 Coordinator 负责 SQL 的解析和调度,Worker 负责任务的具体执行。可配置多个不同类型的 Catalog,实原创 2020-12-26 23:42:35 · 1889 阅读 · 3 评论 -
CDH6.3 搭建文档
文章目录一、概述二、部署规划2.1 Cloudera Manager2.2 CDH parcel2.3 软件目录三、环境配置3.1 配置映射3.2 关闭防火墙&selinux3.3 配置互信3.4 创建用户3.5 安装jdk3.6 配置NTP3.7 安装MySQL驱动程序四、安装MySQL4.1 创建MySQL用户组和用户4.2 解压软件&目录配置4.3 配置环境变量4.4 修改配置文件4.5 初始化&启动数据库4.6 创建相关数据库&用户五、Cloudera-manager原创 2020-11-30 00:43:19 · 728 阅读 · 0 评论 -
kafka常用操作
#创建topic[root@zijie bin]# kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic testCreated topic test.#查看topic[root@zijie ~]# kafka-topics.sh --list --zookeeper localhost:2181#查看topic详情kafka-topics.sh --de原创 2020-09-15 23:15:35 · 217 阅读 · 0 评论 -
Spark SQL & Datasets & DataFrames
文章目录一、Spark SQL三、Datasets二、DataFrames一、Spark SQL Spark SQL是一个用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种方法可以与Spark SQL交互,包括SQL和Dataset API。计算结果时,将使用相同的执行引擎,而不依赖于用于表示计算的API/语言。三、Dat原创 2020-08-09 23:25:54 · 167 阅读 · 0 评论 -
flink分布式高可用集群部署
文章目录一、部署规划1.1 版本说明1.2 服务器规划二、flink部署2.1 解压安装包并配置环境变量2.2 修改核心配置文件2.2.1 配置 flink-conf.yaml2.2.2 配置 masters、workers2.2.3 将flink jar包拷贝至lib2.2.4 将安装包分发给其他节点2.3 启动flink一、部署规划1.1 版本说明软硬件信息参数配置2C2G操作系统版本CentOS Linux release 7.7.1908 (Core)jav原创 2020-07-28 14:31:26 · 1192 阅读 · 1 评论 -
spark分布式集群部署
文章目录一、部署规划1.1 版本说明1.2 服务器规划二、spark部署2.1 解压安装包并配置环境变量2.2 修改核心配置文件2.2.1 配置 spark-env.sh2.2.2 配置 slaves2.2.3 配置 server.properties2.2.4 将安装包分发给其他节点2.3 启动spark一、部署规划1.1 版本说明软硬件信息参数配置2C2G操作系统版本CentOS Linux release 7.7.1908 (Core)java版本java原创 2020-07-28 01:01:57 · 628 阅读 · 0 评论 -
kafka分布式集群部署
文章目录一、部署规划1.1 版本说明1.2 服务器规划1.3 配置目录规划二、kafka部署2.1 解压安装包并配置环境变量2.2 修改核心配置文件2.2.1 配置 server.properties2.2.2 配置 producer.properties2.2.3 配置 server.properties2.2.4 启动 kafka2.3 基本操作一、部署规划1.1 版本说明软硬件信息参数配置2C2G操作系统版本CentOS Linux release 7.7.1908原创 2020-07-27 22:04:51 · 1005 阅读 · 0 评论 -
Hive集群部署
文章目录Hive集群部署一、部署规划1.1 版本说明1.2 服务器规划1.3 配置目录规划二、部署MySQL3.1 创建MySQL用户组和用户3.2 配置目录2.3 解压安装包2.4 软链接程序目录并配置环境变量2.5 修改配置文件2.6 初始化2.7 启动数据库2.8 创建hive用户三、Hive部署3.1 解压安装包并配置环境变量3.2 修改核心配置文件3.2.1 配置 hive-site.xml3.2.2 添加MySQL连接驱动3.2.3 初始化数据库3.2.3.1 报错处理3.2.4 启动 Hive原创 2020-07-26 22:33:03 · 4410 阅读 · 6 评论 -
Hbase分布式集群部署
文章目录一、部署规划1.1 版本说明1.2 服务器规划1.3 配置目录规划二、基本配置2.1 创建相关目录三、Hbase部署3.1 解压安装包并配置环境变量3.2 修改核心配置文件3.2.1 配置 cat hbase-env.sh3.2.2 配置hbase-site.xml3.2.3 配置regionservers3.2.4 配置backup-masters3.2.5 配置hdfs-site.xml 和 core-site.xml3.2.6 将HBase安装包分发到其他节点3.3 启动hbase4.4 we原创 2020-07-26 20:20:01 · 233 阅读 · 0 评论 -
Hive与Hbase
文章目录一、Hive1.1 简介1.2 Hive架构1.3 Hive工作原理1.4 Hive优缺点二、Hbase2.1 简介2.2 Hbase架构及原理2.3 Hbase优缺点三、Hive与Hbase两者异同一、Hive1.1 简介 Hive是一个基于数据仓库工具,并提供HQL查询功能,Hive架构在Hadoop之上,底层数据存储在HDFS上,Hive的本质是将SQL语句转换为MapReduce任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据原创 2020-07-25 01:55:36 · 456 阅读 · 0 评论 -
Hadoop基础架构探究
文章目录一、Hadoop结构1.1 Hadoop基础介绍1.2 Hadoop优点1.3 Hadoop架构1.3.1 HDFS1.3.2 NameNode1.3.3 DataNode1.4 文件操作二、各目录作用一、Hadoop结构1.1 Hadoop基础介绍 Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它原创 2020-07-21 23:32:00 · 281 阅读 · 0 评论 -
Hadoop3分布式高可用集群部署
文章目录一、部署规划1.1 版本说明1.2 服务器规划1.3 配置目录规划二、基本配置2.1 配置映射2.2 创建相关用户&目录2.3 关闭防火墙&selinux2.4 配置java环境2.5 配置互信2.6 OS调优三、hadoop部署3.1 解压安装包并配置环境变量3.2 配置核心配置文件3.2.1 配置 hadoop-env.sh3.2.2 配置 core-site.xml3.2.3 配置 hdfs-site.xml3.2.4 配置mapred-site.xml3.2.5 配置yarn原创 2020-07-21 19:55:47 · 2946 阅读 · 4 评论 -
Hadoop生态圈
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。下图是hadoop生态系统。原创 2020-07-08 19:22:05 · 266 阅读 · 0 评论