自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark五之Structured-Streaming

文章目录Structured Streaming简介快速入门Programming Model(编程模型)1.输入表2.结果表3.输出方式Kafka SourceForeach(单行)|ForeachBatch(多行) sink(输出)foreach sink 会遍历表中的每一行, 允许将流查询结果按开发者指定的逻辑输出。ForeachBatch Sink 是 spark 2.4 才新增的功能, 该功能只能用于输出批处理的数据。基于 event-time 的窗口操作基于 Watermark 处理延迟数据S

2021-08-22 21:38:14 2998

原创 Spark四之Spark SQL

文章目录Spark SQL一、Spark SQL概述1.什么是DataFrame2.什么是DataSet二、Spark SQL编程1.DataFrame读取json文件1.1 创建DataFrame1.2 SQL风格语法 [重点]1.3 DSL风格语法1.4 RDD转换为DataFrame[重要]1.5 DataFrame转换为RDD2.DataSet2.1 创建DataSet2.2 RDD转换为DataSet2.3DataFrame转换为DataSet2.4 DataSet转换为RDD3.DataFra

2021-08-22 21:28:40 681

原创 Spark三之Spark Streaming

Spark Streaming一 、Spark Streaming概述Spark Streaming用于流式数据(实时数据)的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。流式数据(无限数据集):源源不断产生的数据Kafka(为流式数据处理存储数据) —> spark stre

2021-08-22 21:16:01 592

原创 Spark二之RDD

一、Spark RDD 概述Resilient Distributed Dataset(http://spark.apache.org/docs/latest/rdd-programming-guide.html)回顾Spark 程序,一般都包含一个Driver Program用于运行main函数,在该函数中执行着各种各样的并行操作。其中在Spark中有重要的概念RDD。该RDD是一个带有分区的分布式数据集,将数据分布存储在Spark集群的各个节点。当对RDD做任何操作,该操作都是并行的。RDD

2021-08-22 20:44:18 494

原创 Spark一之基础

文章目录Spark 基础一、Spark的介绍1.定义2.Spark VS MapReduce3.Spark内置模块二、安装Spark1.Spark相关地址2.重要角色2.1 Driver/Driver Program(驱动器)2.2 Executor(执行器)2.3 Spark的提交流程3. Standalone模式(伪分布式)4. Spark On Yarn模式4.1Yarn与Standalone的区别5.JobHistoryServer配置(查看历史运行任务)三、开发部署第一个Spark程序四、本地模式

2021-08-22 20:31:23 479

原创 Scala

Scala一、概述1.Scala是一门多范式的静态类型编程语言,Scala支持面向对象和函数式编程2.Scala源代码(.scala)会被编译成java字节码(.class),然后运行在JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接。​ scala的作者叫马丁,在Java语言中建立了新的语言,也就是scala。​ jdk1.5(泛型) jdk1.8(lamdba stram),这个家伙不单设计了scala,还推动了Java的发展。我们学习scala的原因:由于spar

2021-08-22 16:09:47 583

原创 Kafka

Kafka文章目录Kafka一、概述1.定义2.消息队列 MQ(先进先出)3.消息队列的两种模式4.Kafka基础架构二、安装三、常用命令四、Kafka JAVA API1.Producer API2.Consumer API五、Kafka架构深入1. Kafka工作流程及文件存储机制2. Kafka生产者之分区策略3. Kafka生产者之数据可靠性保证4. Kafka生产者之幂等性及消费较早的数据5. Kafka消费者之消费方式6. Kafka消费者之分区分配策略7. Kafka消费者之offset的维

2021-08-22 15:54:22 427

原创 Flume采集工具

文章目录Flume一、概述1.Flume定义2.Flume优点3.Flume组成架构4.Flume组件二、安装1.安装地址2.安装步骤三、企业开发案例1.监控端口数据案例2.实时读取本地文件到HDFS案例注意事项:时钟同步问题3.实时读取目录文件到HDFS案例4.单数据源多出口案例(选择器在第六章节讲解)5.单数据源多出口案例(Sink组)6.多数据源汇总案例7.Taildir Source多目录断点续传(flume1.7才推出,重要级别)四、Flume的四种拓扑图1.串行模式2. 单Source多Chan

2021-07-11 14:03:59 763

原创 Apache Hive

文章目录Apache HiveMySQL-5.6离线安装MySQL之密码过期问题Hive概述为什么有Hive简介架构Hive的安装说明1. 启动 hadoop2. 本地启动hive3.Hive命令行4.启动Hive方式5.JDBC访问HiveHive数据类型复杂类型Hive数据导入1 默认分隔符2 自定义分隔符3. JSON分割符4 CSV格式映射5 正则分隔符Hive中表分类管理表(内部表)外部表分区表创建分区表分桶表复制表结构修改表清空表删除结果写出到文件系统HQL高级(Hive的SQL语言)简单查询H

2021-07-11 12:02:13 4728

原创 HBase数据库

文章目录HBaseRDBMS(关系型数据库--MySQL|Oracle)问题简介什么情况下需要HBase以及为什么需要HBaseHBase特点HBase和RDBMS对比HBase表逻辑结构数据相关概念HBase架构体系(物理结构)架构相关概念HRagionServerHMasterZookeeperHRegionStoreHBase单机版安装下载准备安装HBase 命令1. 客户端进出命令2. namespace的管理命令(相当于数据库中DataBase)3. 表的操作(table)4.表数据操作(增删改查

2021-07-11 11:40:37 1349

原创 Zookeeper

文章目录Zookeeper1. 简介2. Zookeeper场景需求需求1:(监听器)需求2:(文件系统)需求分析33.Zookeeper作用4. 特点5. 集群角色简介leader(主机)是zookeeper集群的核心。follower(从机)observer(观察者,了解)6.投票选主流程Zookeeper的安装与使用1. 集群规划2.安装3. ZKshell文件系统监听通知4. zkShell命令Java访问Zookeeper1. 依赖导入2. 连接zookeeper3. 文件系统相关1. 获得子节点

2021-06-12 16:58:04 510 3

原创 Hadoop之MapReduce

文章目录Hadoop之MapReduceMapReduce入门MapReduce的核心思想MapReduce计算yarn框架(资源调度器)MapReduce特点Yarn伪分布式搭建Yarn集群搭建MapReduce编码需求:统计该文件中,每个人名字出现多少次?(word count)MapReduce2.0工作机制MapReduce-wordcount之工作流程详解MapReduce数据流转机制!MR编码准备MR编码MapReduce核心apiMapreduce补充细节生产中提交MR任务1(生产环境中)ma

2021-06-12 14:08:44 1360 1

原创 大数据Hadoop

大数据大数据简介1.什么是大数据# 大数据: Big Data,数据体量非常大,TB级,日增长在GB级。 B-KB-MB-GB-TB-PB-EB-ZB 彼此之间差1024倍# 大数据技术: 数据体量大道一定程度,导致传统Web技术无法处理(存储、计算),需要使用新的分布式技术处理,叫做大数据技术。 这套技术可以使计算突破单体计算机的硬件配置的限制。 解决海量数据存储(硬盘,内存)、计算问题(CPU)。2.大数据特点# 1.体量大 Volume MySQL 20G 上限 数据体量

2021-06-12 01:23:43 2376

原创 Linux常用命令系统相关

基本常用命令系统相关1.查看网络ip地址 ip a 或者 ip addr2.测试网络联通情况 ping 目标机器ip3.查看当前系统时间 date4.关机 shutdown now5.重启 rebootlinux文件系统结构Linux中一切皆文件。只有一个顶级目录 /,不像windows分C盘 D盘 E盘。文件系统是树状结构。文件含义Linux含义windows/bin所有用户可用的基本命令存放的位置windows没有固定的

2021-05-17 17:53:40 12204 1

原创 虚拟机Nat模式和桥接模式区别

虚拟机Nat模式和桥接模式区别文章目录虚拟机Nat模式和桥接模式区别NAT模式桥接模式总结NAT模式1.NAT网络连接形式,内部的虚拟机ip地址必须是前三位和NAT保持一致,才会连接外网。2.NAT模式下的多个虚拟机是可以互通的。3.NAT模式下虚拟机内部机器,和本机主机外部的机器不属于同一个局域网。桥接模式1.桥接方式的ip网段是自动和本机主机共享的,不需要设置。2.桥接方式连接的虚拟机,和主机以及主机所在当前局域网中的所有电脑,共用一个网段,可以互相联通。3.因为可以互通,所以会存在i

2021-05-17 17:51:23 10227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除