spark
依旧ฅ=ฅ
想去的地方很远 想买的东西很贵 想守护的东西很美好 所以选择努力
展开
-
【Structured Streaming】简单介绍
一、Spark Streaming曲折发展史Spark Streaming针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming接收实时数据源的数据,切分成很多小的batches,然后被Spark Engine执行,产出同样由很多小的batchs组成的结果流。本质上,这是一种micro-batch(微批处理)的方式处理不足在于处理延时较高(无法优...原创 2020-04-21 09:38:19 · 4538 阅读 · 0 评论 -
【Spark Streaming】Spark Streaming的使用
一、Spark Streaming引入集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等Spark Streaming介绍官网:http://spark.apac...原创 2020-04-21 09:06:18 · 4985 阅读 · 0 评论 -
【Spark SQL】sparkSQL应用
一、Spark SQL多数据源交互Spark SQL可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据 import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDi...原创 2020-04-21 08:29:45 · 3910 阅读 · 0 评论 -
【spark】常见异常
Error:(31, 126) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for seri...原创 2020-04-17 11:29:35 · 4031 阅读 · 0 评论 -
【Spark SQL】Spark SQL开发
一、创建DataFrame/DataSetSpark会根据文件信息尝试着去推断DataFrame/DataSet的Schema,当然我们也可以手动指定,手动指定的方式有以下几种:第1种:指定列名添加Schema第2种:通过StructType指定Schema第3种:编写样例类,利用反射机制推断Schema1、指定列名添加Schemaimport org.apache.sp...原创 2020-04-16 20:01:22 · 3936 阅读 · 0 评论 -
【Spark SQL】Spark SQL初体验
一、入口-SparkSession●在spark2.0版本之前SQLContext是创建DataFrame和执行SQL的入口HiveContext通过hive sql语句操作hive表数据,兼容hive操作,hiveContext继承自SQLContext。●在spark2.0之后SparkSession 封装了SqlContext及HiveContext所有功能。通过Spar...原创 2020-04-16 19:52:57 · 3759 阅读 · 0 评论 -
【Spark SQL】Spark SQL介绍
Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。Spark SQL 的特点1.易整合可以使用java、scala、python、R等语言的API操作。...原创 2020-04-16 19:40:37 · 3756 阅读 · 0 评论 -
【spark】RDD数据源
1、普通文本文件sc.textFile("./dir/*.txt")如果传递目录,则将目录下的所有文件读取作为RDD。文件路径支持通配符。但是这样对于大量的小文件读取效率并不高,应该使用wholeTextFilesdef wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions): RDD[(S...原创 2020-04-14 21:36:41 · 4219 阅读 · 0 评论 -
【spark】RDD累加器和广播变量
在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:累加器accumulators:累加器支持在所有不同节点之间进行累加计算(比如计数或...原创 2020-04-14 21:25:32 · 3766 阅读 · 0 评论 -
【spark】Spark原理
http://spark.apache.org/docs/latest/cluster-overview.html名词解释1.Application:指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。2.Driver:Spark中的Driver即运行上述Application的Main()函数并且创...原创 2020-04-14 20:33:27 · 3687 阅读 · 0 评论 -
【spark】RDD依赖关系与DAG
宽窄依赖两种依赖关系类型RDD和它依赖的父RDD的关系有两种不同的类型,即宽依赖(wide dependency/shuffle dependency)窄依赖(narrow dependency)图解如何区分宽窄依赖窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)...原创 2020-04-14 20:26:16 · 4064 阅读 · 0 评论 -
【spark】RDD容错机制Checkpoint
持久化的局限持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。问题解决Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用使用步骤1.Spark...原创 2020-04-14 20:20:05 · 3820 阅读 · 0 评论 -
【spark】RDD的持久化/缓存
引入在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时...原创 2020-04-14 20:09:27 · 3764 阅读 · 0 评论 -
【spark】RDD-API
一、创建RDD1.由外部存储系统的数据集创建,由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")2.通过已有的RDD经过算子转换生成新的RDDval rdd2=rdd...原创 2020-04-13 21:50:23 · 3824 阅读 · 0 评论 -
【spark】整合Yarn报错、无法查看log
1.修改hadoop的yarn-site.xmlvim /export/servers/hadoop/etc/hadoop/yarn-site.xml <property> <name>yarn.resourcemanager.hostname</name> ...原创 2020-04-13 20:17:33 · 4364 阅读 · 0 评论 -
【spark】Spark程序开发
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...原创 2020-04-13 20:14:04 · 3753 阅读 · 0 评论 -
【spark】Spark环境搭建(运行模式)
一、local本地模式解压重命名cd /export/serverstar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgzmv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark如果有权限问题,可以修改为root,方便学习时操作,实际中使用运维分配的用户和权限即可chown -R root /export/servers/s...原创 2020-04-13 20:03:14 · 4130 阅读 · 0 评论 -
【spark】spark介绍
什么是Spark是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。也是一个生态系统。Spark的特点速度快比MapReduce块10-100倍易用(算法多)MR只支持一种计算 算法,Spark支持多种算法。通用Spark可以支持离线计算、实时计算、快速查询(交互式)、机器学习、图计算兼容性强支持大数据中现有的Yarn. Mesos等...原创 2020-04-13 19:22:05 · 4129 阅读 · 0 评论