2021年05月_翁老师的教学团队

原创 Kafka集群部署

Kafka集群部署环境准备》1：集群规划》2： jar包下载http://kafka.apache.org/downloads.htmlkafka_2.11-0.11.0.2.tgzKafka集群部署1）解压安装包[dev1@hadoop102 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2）修改解压后的文件名称[dev1@hadoop102 module]$ mv kafka_2.11-0.11.0.0

2021-05-31 17:33:56 168 2

原创 Kafka概述

1 消息队列的模式与作用1.1消息队列的模式》1：什么是队列？ FIFO》2：消息有两种传递模式点对点发布订阅（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订

2021-05-31 17:18:19 146 1

原创 SparkSQL 项目实战

SparkSQL 项目实战1.1数据准备我们这次 Spark-sql 操作中所有的数据均来自 Hive，首先在 Hive 中创建表,，并导入数据。一共有 3 张表： 1 张用户行为表，1 张城市表，1 张产品表创建目录/opt/module/input上传三个数据文件city_info.txtproduct_info.txtuser_visit_action.txt进入hive中执行CREATE TABLE `user_visit_action`(`date` string,`use

2021-05-28 11:03:47 854

原创数据的加载和保存

数据的加载和保存1通用的加载和保存方式SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL 默认读取和保存的文件格式为 parquet1)加载数据spark.read.load 是加载数据的通用方法scala> spark.read.csv table format text jdbc json textFile load option options

2021-05-26 10:12:45 708 1

原创 SparkSQL 核心编程2 DataSet

SparkSQL 核心编程2DataSetDataSetDataSet 是具有强类型的数据集合，需要提供对应的类型信息。创建 DataSet1）使用样例类序列创建 DataSetscala> case class Person(name: String, age: Long) defined class Personscala> val caseClassDS = Seq(Person("zhangsan",2)).toDS()caseClassDS: org.apache.sp

2021-05-25 08:01:58 326

原创 SparkSQL 核心编程1 DataFrame

SparkSQL 核心编程1DataFrame本课件重点学习如何使用 Spark SQL 所提供的 DataFrame 和DataSet 模型进行编程了解它们之间的关系和转换关于具体的SQL 书写不是我们的重点。新的起点Spark Core 中，如果想要执行应用程序，需要首先构建上下文环境对象 SparkContext，Spark SQL 其实可以理解为对 Spark Core 的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装。在老的版本中，SparkSQL 提供两种 S

2021-05-25 08:01:14 348

原创 SparkSQL概述

SparkSQL 概述SparkSQL 是什么Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。SparkSQL 特点1易整合无缝的整合了 SQL 查询和 Spark 编程2统一的数据访问使用相同的方式连接不同的数据源3兼容 Hive在已有的仓库上直接运行 SQL 或者 HiveQL4标准数据连接通过 JDBC 或者 ODBC 来连接SharkSparkSQL 的前身是 SharkHive 是早期唯一运行在Hadoop

2021-05-25 08:00:16 335 2

原创 Spark 运行架构

Spark 运行架构运行架构Spark 框架的核心是一个计算引擎，整体来说，它采用了标准 master-slave 的结构。Driver 表示 master，负责管理整个集群中的作业任务调度。Executor 则是 slave，负责实际执行任务。核心组件Spark 框架有两个核心组件：DriverExecutorDriverSpark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。Driver 在Spark 作业执行时主要负责：将

2021-05-25 07:58:40 547 2

原创 spark其他模式

其他模式K8S & Mesos 模式Mesos 是Apache 下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter 得到广泛使用,管理着 Twitter 超过 30,0000 台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop 大数据框架，所以国内使用 Mesos 框架的并不多，但是原理其实都差不多，这里我们就不做过多讲解了。容器化部署是目前业界很流行的一项技术，基于Docker 镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是

2021-05-19 10:44:55 196 1

原创 Spark运行模式-yarn

Yarn 模式使用yarn作为资源调度框架的运行模式独立部署（Standalone）模式由 Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的Yarn 环境下 Spark 是如何工作的（其实是因为在国内工作中，Yarn 使用的非常多）。部署》1 解压缩文件将 spark-3

2021-05-19 10:43:55 629 6

原创 Spark运行模式Standalone 模式

Standalone 模式Standalone 模式概述standalone n. 脱机; adj. 单独的，独立的;local 本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行所在开发中使用 Spark 自身节点运行的集群模式，也就是我们所谓的独立部署（Standalone）模式。Spark 的 Standalone 模式体现了经典的master-slave 模式。独立部署（Standalone）模式 = 主从集群规划:集群部署

2021-05-18 11:24:28 882 1

原创 Spark运行模式 local 模式

Spark 运行环境Spark 作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark 的运行3.1Local 模式想啥呢，你之前一直在使用的模式可不是 Local 模式哟。所谓的Local 模式，就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境，一般用于教学，调试，演示等，之前在 IDEA 中运行代码的环境我们称之为开发环境，不太一样。3.1.1解压缩文

2021-05-17 10:44:09 795

原创 Spark 概述

Spark 概述1.1 Spark 是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark 与 Hadoop 比较》1：Spark 出现的时间相对较晚》2：主要功能主要是用于数据计算所以其实 Spark 一直被认为是Hadoop 框架的升级版。首先从时间节点上来看:》 Hadoop2006 年 1 月，Doug Cutting 加入Yahoo，领导Hadoop 的开发2008 年 1 月，Hadoop 成为 Apache 顶级项目2011

2021-05-17 08:49:30 507 5

原创 Hbase 与Hive的集成

Hbase 与Hive的集成HBase与Hive的对比1．Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗，延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。2．HBase(1) 数据库是一种面向列存储的非关系型数据库。(2) 用于存储

2021-05-14 15:06:42 414

原创 HBase与MapReduce

HBase API操作MapReduce通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件系统导入到HBase的表中，比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。》 1．查看HBase的MapReduce任务的执行使用哪些jar$ bin/hbase mapredcp》 2．环境变量的导入（1）执行环境变量的导入（临时生效，在命令行执行下述操作）$ export HBASE_H

2021-05-13 15:06:54 1621

原创 HBase API操作

HBase API操作环境准备新建项目后在pom.xml中添加依赖：<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version></dependency><dependency> <group

2021-05-11 11:36:21 929 3

原创 HBase数据结构

HBase数据结构HBase数据模型HBase和传统的数据库有很大的不同之处，比如MySQL,PostGreSQL,Oracle等设计hbase的表和传统关系数据库非常不同一个key-value存储结构的或者说是面向列族的数据库多版本映射的数据库行（Row）在表中数据依赖于行来存储，行通过行键来区分。行键没有数据类型，通常是一个字节数组。列族（Column Family）行中的数据通过列族来组织。列族也暗示了数据的物理排列。所以列族必须预先定义，并且不容易被修改。每行都拥有相同的列族，

2021-05-11 11:35:34 990

原创 HBase Shell操作

HBase Shell操作基本操作1．进入HBase客户端命令行[dev1@hadoop102 hbase]$ bin/hbase shell2．查看帮助命令hbase(main):001:0> help3．查看当前数据库中有哪些表hbase(main):002:0> list表的操作1．创建表hbase(main):002:0> create 'student','info'2．插入数据到表hbase(main):003:0> put 'studen

2021-05-08 11:29:53 594

原创 HBase概述

》什么是HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统》 HBase有什么用？利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。用于支持结构化的数据存储》 HBase特点1）海量存储Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩

2021-05-08 10:07:21 919 2

原创 Hive 数据类型（重点）

Hive 数据类型基本数据类型对于Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。集合数据类型Hive 有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与Java 中的Array 和 Map 类似，而STRUCT 与C 语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。案例实操1）假设某表有如下一行

2021-05-06 10:43:31 276

原创 Hive常用交互命令

Hive常用交互命令[dev1@hadoop102 hive]$ bin/hive -help》》1 "-e"不进入hive的交互窗口执行sql语句[dev1@hadoop102 hive]$ bin/hive -e "select id from default.student;"》》2 "-f"执行脚本中sql语句（1）在/opt/module/data目录下创建hivef.sql文件[dev1@hadoop102 data]$ vim hivef.sql文件中写入正确的sql语句

2021-05-06 10:41:55 328

原创 Hive的JDBC访问

beeline概述beeline 英[ˈbiːlaɪn] 美[ˈbiːlaɪn] n. （两地之间的）直线; 直路;Beeline是Hive新的命令行客户端工具,是基于SQLLine CLI的JDBC客户端。Hive客户端工具后续将使用Beeline 替代HiveCLI一般开发中不使用的原因:慢案例：查询数据库1启动hiveserver2bin/hiveserver2 1启动 beeline[dev1@hadoop102 hive]$ bin/beeline2连接 hi

2021-05-06 10:23:08 277

翁老师的教学团队