大数据全家桶
各类大数据工具大全
九月木樨
00后程序猿,写博客只是为了记录自己的所学,以及工作或学习中遇到的问题。
展开
-
Hive基础知识大全
一、Hive基本概念1.1、Hive简介什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题:人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive原创 2020-06-04 18:19:41 · 440 阅读 · 0 评论 -
Oozie的安装与使用
文章目录1、Oozie的介绍2、oozie的架构3、oozie的安装第一步:修改core-site.xml第二步:上传oozie的安装包并解压第三步:解压hadooplibs到与oozie平行的目录第四步:创建libext目录第五步:拷贝依赖包到libext第六步:添加ext-2.2.zip压缩包第七步:修改oozie-site.xml第八步:创建mysql数据库第九步:上传oozie依赖的jar包到hdfs上面去第十步:创建oozie的数据库表第十一步:打包项目,生成war包第十二步:配置oozie的环境原创 2020-06-02 11:49:06 · 439 阅读 · 0 评论 -
Spark介绍和安装
Spark基本介绍Apache Spark官方介绍:http://spark.apache.org/Apache Spark 官方文档中文版:http://spark.apachecn.org/#/Apache Spark是用于大规模数据处理的统一分析引擎。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件...原创 2020-04-22 21:37:04 · 340 阅读 · 0 评论 -
Structured Streaming基础概述
文章目录第一章 Structured Streaming曲折发展史Spark StreamingStructured Streaming介绍API主要优势编程模型第二章 Structured Streaming实战创建Source读取Socket数据读取目录下文本数据计算操作输出output modeoutput sink第三章 StructuredStreaming与其他技术整合整合Kafka官网介绍整合环境准备整合MySQL简介代码演示第一章 Structured Streaming曲折发展史Spa原创 2020-05-22 11:00:27 · 615 阅读 · 0 评论 -
Spark Streaming基础概述
文章目录第一章 Spark Streaming引入Spark Streaming介绍实时计算所处的位置第二章 Spark Streaming原理SparkStreaming原理整体流程数据抽象DStream相关操作TransformationsOutput/Action总结第三章 Spark Streaming实战WordCount需求&准备代码演示执行updateStateByKey问题代码演示执行reduceByKeyAndWindow图解代码演示执行统计一定时间内的热门词汇TopN需求代码演示原创 2020-05-21 21:16:48 · 421 阅读 · 0 评论 -
Spark SQL基础概述
Spark SQL概述Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。●Spark SQL 的特点1.易整合可以使用java、scala、python、R等语言的API操作。2原创 2020-05-19 22:31:41 · 339 阅读 · 0 评论 -
Spark Core基础概述
RDD详解1.1. 什么是RDD●为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象。AMP实验室发表的一篇关于RDD的论文:《Resilient Distributed Da原创 2020-05-18 22:34:58 · 304 阅读 · 0 评论 -
Flume基础知识大全
文章目录前言日志采集框架Flume1 Flume介绍1.1 概述1.2 运行机制1.3 Flume采集系统结构图2 Flume实战案例2.1 Flume接受telent数据第一步:开发配置文件第二步:启动配置文件第三步:安装telent准备测试2.2 采集案例1、采集目录到HDFS2、采集文件到HDFS3、两个agent级联3 更多source和sink组件4 高可用Flum-NG配置案例failover4.1、角色分配4.2、node01安装配置flume与拷贝文件脚本4.3、node02与node03配原创 2020-06-01 20:25:56 · 362 阅读 · 0 评论 -
Apache Impala基础知识大全
文章目录Apache Impala一、Apache Impala1.Impala基本介绍2.Impala与Hive关系3.Impala与Hive异同4.Impala架构5.Impala查询处理过程二、Impala安装部署1.安装前提2.下载安装包、依赖包3.虚拟机新增磁盘(可选)4.配置本地yum源5.安装Impala6.修改Hadoop、Hive配置7.修改impala配置8.启动、关闭impala服务三、Impala-shell命令参数1.impala-shell外部命令2.impala-shell内部原创 2020-06-01 18:36:46 · 453 阅读 · 0 评论 -
Apache Hue基础知识大全
文章目录Apache Hue一、Apache Hue介绍1.Hue是什么2.Hue能做什么3.Hue的架构二、Hue的安装1.上传解压安装包2.编译初始化工作2.1.联网安装各种必须的依赖包2.2.Hue初始化配置2.3.创建mysql中Hue使用的DB3.编译Hue4.启动Hue、Web UI访问三、Hue与软件的集成1.Hue集成HDFS2.Hue集成YARN3.Hue集成Hive4.Hue集成Mysql5.Hue集成Oozie6.Hue集成Hbase7.Hue集成ImpalaApache Hue一原创 2020-06-01 17:06:51 · 986 阅读 · 0 评论 -
Hbase基础知识大全
文章目录1、HBase基本介绍2、HBase与Hadoop的关系3、RDBMS与HBase的对比4、HBase特征简要5、HBase的基础架构6、HBase的集群环境搭建第一步:下载对应的HBase的安装包第二步:压缩包上传并解压第三步:修改配置文件第四步:安装包分发到其他机器第五步:三台机器创建软连接第六步:三台机器添加HBASE_HOME的环境变量第七步:HBase集群启动第七步:页面访问7、HBase常用shell操作8、HBase的高级shell管理命令9、HBase底层原理10、HBase三个重要原创 2020-05-26 09:45:36 · 648 阅读 · 0 评论 -
kafka知识大全
文章目录1、消息队列的介绍2、Kafka消息队列3、消息队列的应用场景4、消息队列的两种模式1、点对点模式2、发布/订阅模式5、kafka的基本介绍1、kafka的基本介绍2、kafka的好处3、分布式的发布与订阅系统4、kafka的主要应用场景6、kafka的架构介绍7、kafka架构内部细节剖析8、kafka主要组件说明1、kafka当中的producer说明2、kafka当中的topic说明3、kafka当中的partition说明4、kafka当中partition的副本数说明5、kafka当中的s原创 2020-05-23 23:13:13 · 359 阅读 · 0 评论