![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
RivenDong
这个作者很懒,什么都没留下…
展开
-
Spark Streaming示例(九)
文章目录1. Spark Streaming中的离散流特征2. Spark Streaming的应用场景1. Spark Streaming中的离散流特征2. Spark Streaming的应用场景原创 2020-07-30 16:20:00 · 206 阅读 · 0 评论 -
基于Zookeeper的Kafka分布式安装部署测试
文章目录1. 实验环境说明2. 下载安装3. 配置部署3.1 配置server.properties文件3.2 创建日志存储目录3.3 将文件发送至集群其他节点3.3 修改集群中其余节点的配置3.4 三个节点配置环境变量4. 启动测试4.1 启动ZooKeeper4.2 启动Kafka4.3 测试4.4 参数说明5. 单节点启动多broker代理1. 实验环境说明关于使用的大数据集群:Hadoop+Spark+Zookeeper高可用集群搭建(一)Hadoop+Spark+Zookeeper高可用集原创 2020-07-28 16:57:35 · 280 阅读 · 0 评论 -
Spark SQL 操作HDFS的三种方式(八)
文章目录1. 创建测试数据2. IDEA配置3. 实例代码3.1 通过反射方式将RDD转换成DataFrame3.2 通过创建Schema自定义格式的方式3.3 通过读取json文件的方式创建4. 注意1. 创建测试数据vi users1 lhd 130 1997-03-022 gdh 180 1996-08-243 cjb 160 1997-07-164 ymj 98 1997-06-065 syz 99 1996-02-286 hl 120 1995-01-03hadoop fs原创 2020-07-27 16:50:17 · 2636 阅读 · 0 评论 -
Spark SQL 操作Hive(七)
文章目录1. Spark SQL的功能2. Spark SQL操作Hive1. Spark SQL的功能Spark SQL可操作Hive、HBase、MySQL、Oracle、DB2等中的数据提升了数据仓库的计算能力和计算复杂度基于Spark SQL推出的DataFrame可实现数据仓库直接使用机器学习、图计算等复杂算法库深度数据挖掘数据仓库Spark SQL是数据仓库、数据挖掘及其科学计算和分析引擎工具2. Spark SQL操作Hive...原创 2020-07-22 16:19:48 · 351 阅读 · 0 评论 -
基于IDEA开发Spark应用程序(六)
文章目录1. 环境配置2. 基于Scala语言的本地应用开发3. 基于Scala语言的集群应用开发4. 基于Java语言的本地应用开发5. 基于Java语言的集群应用开发1. 环境配置IDEA 2019Maven项目pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org原创 2020-07-13 17:39:38 · 557 阅读 · 0 评论 -
Spark基于YARN调度模式(五)
Spark基于YARN的调度模式由于YARN模式下不需要Mesos模式下的所有Master进程和所有Worker进程,需首先关闭这些进程./stop-slaves.sh./stop-slaves.sh启动YARN集群start-yarn.sh创建测试文件vi wordcount.txthdfs dfs -put wordcount.txt wordcount.txt运行spark-shell在yarn模式下运行spark-shell需要指定–master y原创 2020-07-13 11:46:02 · 966 阅读 · 0 评论 -
Spark submit 提交任务(四)
文章目录Spark基于应用作业的操作Spark操作的基础命令与开发工具介绍Spark基于应用作业的操作Spark框架可借助spark-submit来提交一个编写好的Job应用到集群,从而完成Spark应用的分析和处理,这通常是生产场景中使用的一种操作方式。spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://master002:7077 ../examples/jars/spark-examples_2.原创 2020-07-08 15:51:11 · 1172 阅读 · 0 评论 -
Spark RDD(三)
文章目录1. 前言2. 数据源3. 调度器4. RDD 编程接口4.1 数据源自于集合的接口4.2 数据源自于RDD的接口4.3 数据源自于DataFrame的接口5. RDD操作5.1 Spark基于命令行的操作5.2 Spark基于应用作业的操作5.3 Spark操作的基础命令与开发工具介绍5.4 Spark基于YARN的调度模式5.5 Spark基于Scala语言的本地应用开发5.6 Spa...原创 2020-07-07 16:00:50 · 710 阅读 · 0 评论 -
Flink流处理和批处理样例
文章目录1. Flink开发环境2. Flink流处理案例3. Flink批处理案例1. Flink开发环境推荐使用IntelliJ IDEA编译器,创建Maven项目,在这里给出Java语言的Maven配置:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/...原创 2020-03-10 14:42:53 · 1097 阅读 · 0 评论 -
Flink DataStream常用API
文章目录1. Flink API的抽象级别分析2. Flink DataStream常用API1. Flink API的抽象级别分析Flink中提供了4种不同层次的API:低级API:提供了对时间和状态的细粒度控制,简洁性和易用性较差,主要应用在对一些复杂事件的处理逻辑上。核心API:主要提供了针对流数据和离线数据的处理,对低级API进行了一些封装,提供了filter、sum、max、m...原创 2020-03-10 13:50:50 · 1157 阅读 · 0 评论 -
Flink on Yarn集群
文章目录1. 简介2. 基于Yarn的集群部署2.1 第1种模式2.2 第2种模式1. 简介Flink on Yarn模式的原理是依靠Yarn来调度Flink任务,这种模式可以充分的利用集群资源,提高集群机器的利用率。Flink on Yarn模式主要分为如下两种:第1种模式:在Yarn中提前初始化一个Flink集群(称为Flink yarn-session),开辟指定的资源,以后的Fli...原创 2020-03-09 14:49:28 · 1611 阅读 · 0 评论 -
Flink 1.10.0 分布式高可用集群搭建
文章目录1. 环境准备2. 搭建步骤1. 环境准备2. 搭建步骤hadoop依赖jar包:https://repo.maven.apache.org/maven2/org/apache/flink/flink-shaded-hadoop-2-uber/2.6.5-10.0/原创 2020-02-21 17:15:47 · 3828 阅读 · 2 评论 -
Hive优化补充(十六)
文章目录1. 限制调整2. 列裁剪和分区裁剪3. 谓词下推4. sort by代替order by5. group by配置调整5.1 map端调整5.2 倾斜均衡配置项6. MapReduce优化6.1 调整mapper数6.2 调整reducer数7. 严格模式8. 推测执行1. 限制调整LIMIT语句是经常使用到的,不过在执行时,还是需要执行整个查询语句,然后再返回部分结果。这种情况是十...原创 2020-01-08 21:15:06 · 976 阅读 · 0 评论 -
Hive的EXPLAIN命令续(十五)
1. 词频统计算法通过上图可以看出,在执行词频统计算法时,会生成两个阶段(Stage)的MapReduce任务,最后是输出的单词个数,通过输出结果可以看出,从小到大排列输出。2. 元操作符Hive编译器将一个HQL转换为操作符,操作符Operator是Hive的最小的处理单元,每个操作符代表HDFS的一个操作或者一道MapReduce作业,所有的Operator都是hive定义的一个处理...原创 2020-01-08 21:02:15 · 1003 阅读 · 0 评论 -
Hive的EXPLAIN命令(十四)
1. 前言Hive本身是不会生成Java MapReduce算法程序的,而是生成一个表示“job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块。换句话说,这些通用的模板函数类似于微型的语言翻译程序,而这个驱动计算的“语言”是以XML形式编码的。·2. 基于词频统计分析EXPLAIN命令SELECT word, count(1) AS count FROM ...原创 2020-01-08 16:27:07 · 1176 阅读 · 0 评论 -
Yarn的调度器(三)
文章目录1. Yarn调度流程1.1 Yarn分层调度1.2 Yarn调度触发过程2. Yarn调度器分析2.1 FIFO调度器2.2 Capacity调度器2.3 Fair调度器1. Yarn调度流程1.1 Yarn分层调度在 YARN 中资源分配共分成两个层级,第一层是全局应用的资源分配,第二个层级在 ApplicationMaster 层面,ApplicationMaster 将从 ...原创 2019-12-03 19:27:29 · 1176 阅读 · 0 评论 -
基于阿里云搭建hadoop平台
文章目录1. 前言2. 添加hadoop用户3. 配置/etc/hosts文件4. 设置ssh免密登录4.1 安装ssh4.2 设置免密5. 安装JDK6. 安装hadoop7. 配置环境变量8. 配置hadoop8.1 hadoop-env.sh8.2 core-site.xml8.3 hdfs-site.xml8.4 mapred-site.xml8.5 yarn-site.xml8.6 Sl...原创 2019-11-21 16:45:50 · 1590 阅读 · 0 评论 -
Spark框架的基本原理(二)
文章目录原创 2019-10-24 22:34:48 · 983 阅读 · 0 评论 -
Hadoop+Spark+Zookeeper高可用集群搭建(五)
文章目录1. 前言2. 准备工作3. 配置Spark系统变量3.1 配置Spark 和 Scala 系统变量3.2 配置Spark环境变量3.3 配置Spark工作节点4. 启动Spark集群4.1 在三个Slave节点上启动ZK集群4.2 在master001上启动HDFS集群4.3 在master001上启动Spark集群的Master节点4.4 在master002上启动Spark集群的Ma...原创 2019-10-24 16:24:27 · 1720 阅读 · 0 评论 -
Spark概述(一)
文章目录1. Spark Overview2. Spark框架原理3. Spark大数据处理4. RDD数据集4.1 迭代模式的自动切换4.2 执行步骤的可恢复性4.3 故障作业的高可靠性4.4 故障数据的高度容错5. Spark子系统5.1 Spark SQL5.2 Spark Streaming5.3 Spark MLlib5.4 其他子系统1. Spark OverviewApache ...原创 2019-10-24 11:30:55 · 2143 阅读 · 0 评论 -
Flume实例:监控本地文件夹并写入到HDFS中(四)
文章目录1. 配置文件介绍2. 准备工作3. 开始测试1. 配置文件介绍下面我将以官方文档中给出的一个例子介绍一下FLume的配置文件。它描述了一个单节点Flume部署。该配置允许用户生成事件,然后将它们记录到控制台。# example.conf: A single-node Flume configuration# Name the components on this agent...原创 2019-10-20 20:14:40 · 1731 阅读 · 0 评论 -
Flume实例:实时测试客户端传输的数据(三)
文章目录1. 介绍2. 准备工作1. 介绍在slave001节点/home/hadoop目录创建netcat.conf文件,将下列内容插入到netcat.conf,启动netcat.conf程序用来监听某个端口,并捕获传输的数据,在其他节点(slave002)使用Telnet协议发送数据。整个过程如同使用QQ聊天软件向另一个客户端发送消息,但对方接收不能回复。2. 准备工作在slave0...原创 2019-10-20 17:07:05 · 1461 阅读 · 0 评论 -
Flume集群搭建(二)
文章目录1. 前言2. 下载解压3. 安装配置4. 分发验证1. 前言在Flume基本原理与架构中较为系统的讲解了Flume的作用、组件、架构等知识,本篇文章将讲解Flume集群的搭建。Flume框架在jar包上依赖Hadoop和Zookeeper,并不要求Flume启动时必须启动Hadoop和Zookeeper服务。2. 下载解压Flume的下载地址为:Flume-1.6.0下载完毕...原创 2019-10-20 15:25:52 · 1407 阅读 · 0 评论 -
Hive的内置函数(十一)
文章目录1. 前言2. 内置函数实例2.1 UDF函数实例2.2 UDAF函数实例2.3 UDTF函数实例3. hive常用函数1. 前言Hive中包含很多内置函数,如果内置函数不能满足实际应用时,也可以自定义函数(User-Defined Function,UDF)来实现,并在Hive中调用。UDF函数有3中类型:UDF(User-Defined-Function)函数作用于单条...原创 2019-09-23 11:56:07 · 1543 阅读 · 0 评论 -
Hive的Java API 操作(十二)
文章目录1. 前言2. 通过java访问Hive2.1 启动HiveServer22.2 Java API操作Hive的例子2.2.1 创建Maven项目2.2.2 实例代码2.2.3 效果截图3. 再来举个栗子1. 前言在前面几篇中已经实现了Hive的配置和安装,并且基于Hive Shell实现了数据的基础分析,平常我们通过Hive做简单的数据分析实验的时候,都是直接进入Hive执行Hive...原创 2019-09-23 18:11:47 · 1195 阅读 · 0 评论 -
Hive的优化(十三)
文章目录1. 前言2. MapReduce优化3. 配置优化3.1 列裁剪3.2 分区裁剪3.3 join操作3.4 GROUP BY操作4. 小结1. 前言Hive的底层是MapReduce,当数据量太大时,往往可以通过并行来提高效率,比如通过Partition实现运行多个Reduce,可是如果处理不当则容易引发数据倾斜,从而导致效率降低,这就涉及Hive的优化。Hive的优化主要分为Map...原创 2019-09-23 22:26:48 · 889 阅读 · 0 评论 -
Hadoop IO操作之校验和
HDFS数据完整性 用户希望存储和处理数据的时候,不会有任何损失或者损坏。Hadoop提供两种校验 1、校验和 常用的错误检测码是:CRC-32(循环冗余校验)使用CRC-32算法任何大小的数据输入均计算得到一个32位的整数校验码。 2、运行后台进程来检测数据块校验和 1、写入数据节点验证 Hdfs会对写入的所有数据计算校验和,并在读取数据时验证校验和。...原创 2018-01-26 18:46:00 · 967 阅读 · 0 评论 -
Hive元数据库中各个表的含义(十)
文章目录1. 前言2. 如何访问元数据库中的表3. 分析各表作用3. 详细分析1. 前言在之前找BUG的过程中,查看了元数据库中的DBS表和SDS表,灰常滴感兴趣,所以逐个查了一下。2. 如何访问元数据库中的表首先进入mysql,然后选择使用所创建的元数据库然后查看总共有几个元数据表可以清楚的看到总共有30几个表。3. 分析各表作用首先先来个简要分析:表名作用...原创 2019-09-22 16:58:48 · 2072 阅读 · 0 评论 -
Hive创建外部表两种方式的区别(九)
注意:本篇是我根据Hive第7篇文章最后的BUG,未在数据仓库找到表目录的BUG而写的。。。首先,再回顾以下创建外部表的两种方式:第一种是创建一个空表,然后向表中导入数据的方式create external table person1(id int,name string,age int,fav array<string>,addr map<string, s...原创 2019-09-22 12:32:31 · 1908 阅读 · 0 评论 -
Hive的SemanticException Unable to determine if hdfs BUG(八)
先来分享两条查看NameNode节点状态的命令:hdfs haadmin -getServiceState nn1hdfs haadmin -getServiceState nn2接着上一篇来吧,不过这次我们通过master001来写入文件,使用lhd数据库,然后使用以下命令创表:create external table person(id int,name string,age...原创 2019-09-22 11:57:00 · 1646 阅读 · 0 评论 -
Hive的内部表与外部表(七)
文章目录1. 前言2. 准备工作2.1 创建数据库2.2 查看数据库2.3 使用数据库2. 内部表2.1 查看表目录2.2 删除表再查看3. 外部表3.1 外部表简介3.2 两种创建方式3.3 以第二种方式为例建表3.4 查看表目录1. 前言与传统的关系型数据库不同,Hive创建的表分为内部表和外部表,对于内部表来说,在创建的时候会把数据移动到数据仓库所指向的位置;如果是外部表,则仅仅记录的是...原创 2019-09-21 12:32:58 · 1201 阅读 · 0 评论 -
Hive表的分桶(六)
文章目录1. 前言2. 表的分桶2.1 建立带有分桶的表2.2 导入数据2.3 查询3. 来点有趣的分析1. 前言分桶是相对分区进行更细粒度的划分。在分区数量过于庞大以至于可能导致文件系统崩溃时,我们就需要使用分桶来解决问题。分桶将整个数据内容按照某列属性值的Hash值进行划分。比如,如果按照ID属性分为4个桶,就是对ID属性值的Hash值对4取模,按照取模的结果对数据进行分桶。举个例子:...原创 2019-09-21 11:16:31 · 1663 阅读 · 0 评论 -
Hive表的分区(五)
文章目录1. 前言2. 表的分区2.1 建立带有分区的表2.2 导入数据2.3 查询3. BUG补充1. 前言Hive中存放的数据量往往很大,而处理庞大的数据需要耗费大量的时间,若是每次查询都对全部的数据集进行检索,效率将会极其的低下。而且我们在大多数的情况下并不需要对全部的数据进行检索,因此引入分区和分桶的方法将会减少每一次扫描总数据量,并显著的改善性能。2. 表的分区把数据按照单个或多...原创 2019-09-20 18:32:30 · 1406 阅读 · 0 评论 -
HBase的基本原理和体系结构(一)
文章目录1. 前言2. NoSQL2.1 什么是NoSQL2.2 NoSQL数据库的分类2.2.1 键值(key-value)存储数据库2.2.2 列存储数据库2.2.3 文档型数据库2.2.4 图形(Graph)数据库2.3 NoSQL数据库的应用2.4 关系型数据库与非关系型数据库的区别3. HBase基础3.1 HBase表结构3.2 HBase的体系结构1. 前言HBase属于列式非关...原创 2019-09-24 21:52:36 · 1393 阅读 · 0 评论 -
HBase的物理模型和读写流程(二)
文章目录1. HBase的物理模型2. HBase的读写流程2.1 写操作流程2.2 读操作流程1. HBase的物理模型Region是按大小进行分割的,每个表开始只有一个Region。随着数据量的增多,Region不断增大,当增大到液体个阈值的时候,Region就会分出一个新的Region,之后会有越来越多的Region。Region是HBase中分布式存储和负载均衡的最小单元,不同的R...原创 2019-09-25 16:23:51 · 923 阅读 · 0 评论 -
HBase的Shell操作(四)
文章目录1. 创建表2. 删除表3. 显示所有表4. 查询数据5. 增加数据6. 删除数据7. 修改数据首先,进入HBase Shell:1. 创建表create '表名称','列族名称1','列族名称2','列族名称N'create 'test1','column1','column2','column3'上述命令为:创建一个test1表,并在表中插入column1、column2...原创 2019-09-25 20:09:57 · 1007 阅读 · 0 评论 -
Flume基本原理与架构(一)
文章目录1. 前言2. Flume的特点2.1 事务性2.2 可靠性2.3 多层代理3. Flume架构4. Flume的主要组件4.1 Event、Client与Agent数据传输组件4.2 Source与Event的接收组件4.3 Channel与Event的传输组件4.4 Sink与Event的发送组件4.5 其它组件1. 前言Flume是Cloudera(Hadoop数据管理软件与服务...原创 2019-09-29 19:43:23 · 1663 阅读 · 0 评论 -
Sqoop从HDFS中导出数据(七)
文章目录1. 前言2. 配置文件3. 执行Sqoop4. 查看结果1. 前言数据导出操作可以用export命令,在执行数据导出之前,**数据库中必须已经存在要导入的目标表。**在导出的过程中,HDFS或者Hive上的文件会根据用户指定的分隔符被读取解析并写入到MySQL相应的表中。2. 配置文件创建conf4文件:export--connectjdbc:mysql://master0...原创 2019-09-27 11:58:33 · 1179 阅读 · 0 评论 -
Sqoop向HDFS中导入查询结果(六)
文章目录1. 前言2. 配置文件3. 创建相关数据4. 执行Sqoop5. 查看结果1. 前言除了前面介绍的导入数据的方式之外,Sqoop也支持导入SQL查询的结果集。–query参数指定SQL语句–target-dir参数指定目标文件如果想要并行地导入查询结果,每个Map需要执行一个查询副本,查询必须要有一个$CONDITIONS符号,表示每个Sqoop进程被唯一的条件语句替换,...原创 2019-09-27 11:40:57 · 1163 阅读 · 0 评论 -
Sqoop将数据导入到Hive(五)
文章目录1. 前言2. 写配置文件3. 执行配置文件4. 查看导入数据1. 前言前面经历各种周折,终于改完BUG了,成功可以将数据导入到HDFS中,导入数据到Hive与之类似。2. 写配置文件内容如下:import--connectjdbc:mysql://master001:3306/test--usernamehadoop1--passwordhadoop--table...原创 2019-09-27 10:23:11 · 1622 阅读 · 0 评论