BigData
文章平均质量分 96
BigData
L小Ray想有腮
自由 秩序 野心
展开
-
大数据实战项目 -- 实时数仓
文章目录原创 2021-07-06 22:08:30 · 2380 阅读 · 15 评论 -
大数据实战项目 -- 离线数仓
一、准备1.1 集群规划技术选型位置框架数据采集传输Flume,Kafka,Sqoop ,Logstash,DataX,数据存储MySql,HDFS,HBase,Redis,MongoDB数据计算Hive,Tez, Spark, Flink数据查询Presto,Druid ,Impala,Kylin数据可视化Echarts、Superset、Tableau、QuickBI、DataV任务调度Azkaban、Oozie集群监控Za原创 2021-06-01 09:37:18 · 5052 阅读 · 5 评论 -
大数据组件笔记 -- Flink
文章目录一、一、原创 2021-05-08 10:28:07 · 792 阅读 · 1 评论 -
大数据组件笔记 -- Scala
文章目录原创 2021-03-21 16:34:09 · 434 阅读 · 0 评论 -
大数据组件笔记 -- ElasticSearch
文章目录一、简介一、简介原创 2021-04-17 17:41:44 · 1101 阅读 · 1 评论 -
大数据组件笔记 -- Spark Streaming
文章目录一、概述二、DStream 创建2.1 RDD 队列2.2 自定义数据源一、概述离线与实时离线计算:在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。实时计算:输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。批量与流式批:处理离线数据,冷数据。单个处理数据量大,处理速度比流慢。流:在线,实时产生的数据。单次处理的数据量小,但处理速度更快。Spark StreamingSpa原创 2021-04-10 16:59:11 · 270 阅读 · 0 评论 -
大数据组件笔记 -- Spark SQL
文章目录一、概述二、编程一、概述简介Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。Hive SQL转换成 MapReduce然后提交到集群上执行,大大简化了编写 MapReduce的程序的复杂性,但MapReduce这种计算模型执行效率比较慢。Spark SQL先将数据转换成 RDD 然后提交到集群执行,执行效率非常快。DataFrame在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的原创 2021-04-06 20:52:03 · 227 阅读 · 0 评论 -
大数据组件笔记 -- Spark Core
文章目录二、SparkCore2.1 RDD 概述2.1.1 RDD 引入之IO流2.1.2 什么是 RDD2.1.3 RDD 特性2.2 RDD 编程二、SparkCore2.1 RDD 概述2.1.1 RDD 引入之IO流2.1.2 什么是 RDD2.1.3 RDD 特性A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD原创 2021-04-03 16:22:23 · 176 阅读 · 0 评论 -
大数据组件笔记 -- Spark 入门
文章目录一、简介一、简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark 历史Spark 虽然有自己的资源调度框架,但实际中常用 Yarn 来进行统一资源管理。Spark 框架Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。S原创 2021-03-28 15:13:08 · 315 阅读 · 1 评论 -
大数据组件笔记 -- Hive
文章目录一、基本概念1.1 Hive和数据库比较1.2 Hive 安装1.3 Hive 启动一、基本概念什么是 HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上优点操作接口采用类SQL语法,原创 2021-03-25 13:43:38 · 847 阅读 · 2 评论 -
大数据组件笔记 -- HBase
文章目录一、简介1.1 数据模型1.2 基本架构二、入门一、简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.1 数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。逻辑结构物理存储结构数据模型Name Space:命名空间,类似于关系型数据库的DatabBase概念,每个命名空间下有多个表。H原创 2021-03-14 10:24:50 · 258 阅读 · 1 评论 -
大数据组件笔记 -- Flume
文章目录一、概述1.1 基础架构1.2 安装部署1.3 监控端口数据官方案例1.4 实时监控单个追加文件一、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。为什么使用 FlumeFlume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。1.1 基础架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Sour原创 2021-03-10 22:27:45 · 227 阅读 · 0 评论 -
大数据组件笔记 -- Hadoop
文章目录一、安装1.1 准备1.2 配置1.3 启动二、操作2.1 前端页面2.2 HDFS Shell 操作2.3 HDFS 客户端一、安装1.1 准备准备软件hadoop-3.1.4.tar.gzjdk-8u271-linux-x64.tar.gz虚拟机规划主机名IPNNDNRMNMbigdata01192.168.1.101YYYbigdata02192.168.1.102YYYbigdata03192.168.1原创 2021-02-28 13:56:23 · 668 阅读 · 0 评论 -
大数据组件笔记 -- Kafka
文章目录一、简介一、简介Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。、原创 2021-02-21 10:23:44 · 613 阅读 · 1 评论 -
大数据组件笔记 -- ZooKeeper
文章目录、原创 2021-02-08 16:46:25 · 328 阅读 · 0 评论