Spark
Apache Spark是用于大规模数据处理的统一分析引擎
Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。
睡覺了
我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
-
idea 创建maven后无法创建scala object类
1可能是因为maven的配置问题 (也有可能是其他问题 只供参考)file->settings->Build,Excution->Build Tools->Maven now do: 去掉选中Execute goals的选中选中Use plugin2如果你项目下面本身就有一个Java项目,那么可以直接改名,创建scala class了如果没有看下面:右键-》new-》directory-》输入scala-》右键scala文件-》Mark D...原创 2020-08-05 10:20:06 · 2258 阅读 · 0 评论 -
scala_准备_spark_基础
package model.Caseimport scala.collection.mutable.ListBufferobject Case_01 { case class case1(name: String, age: Int) { } def main(args: Array[String]): Unit = { //样例类 不需要new //val 表示 不可变 var 表示可变 // var a1 = case1("zhang",.原创 2020-08-04 14:42:55 · 292 阅读 · 0 评论 -
SparkStreaming 介绍
一Spark Streaming引入新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等还有很多很多二Spark...原创 2020-04-14 17:49:04 · 9724 阅读 · 24 评论 -
Spark 集成 Hive
Hive查询流程及原理执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hive的元数据库服务,让SparkSQL能够加载元数...原创 2020-04-14 16:24:39 · 8868 阅读 · 7 评论 -
Spark RDD 练习
1、创建一个1-10数组的RDD,将所有元素*2形成新的RDDscala> val rdd1 = sc.parallelize(1 to 10)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24scala> val rdd2 ...原创 2020-04-13 21:16:13 · 10968 阅读 · 2 评论 -
Spark 自定义UDF
●需求有udf.txt数据格式如下:Helloabcstudysmall通过自定义UDF函数将每一行数据转换成大写select value,smallToBig(value) from t_wordpackage cn.itcast.sqlimport org.apache.spark.SparkContextimport org.apa...原创 2020-04-13 21:04:58 · 8286 阅读 · 1 评论 -
Spark UDAF 自定义函数
需求有udaf.json数据内容如下{"name":"Michael","salary":3000}{"name":"Andy","salary":4500}{"name":"Justin","salary":3500}{"name":"Berta","salary":4000}求取 平均工资●继承UserDefinedAggregateFunction方法...原创 2020-04-13 21:03:17 · 8662 阅读 · 0 评论 -
Spark 三种方式 查询数据
1、分别给出一张表的数据:student_scores.txt字段是:班级编号,班级名称,入学日期,所属院系中文名学号,姓名,性别,所属班级编号,入学成绩170401011001 ,施礼义,男,0101,467170401011002 ,王旭,男,0101,518170401011003 ,肖桢,女,0101,509170401011004 ,吴佩东,男,0101,508170...原创 2020-04-13 21:01:37 · 11340 阅读 · 8 评论 -
Spark IDEA
IDEA编写Spark程序 ●创建 Maven 项目并补全目录、配置 pom.xml <!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repositories> <repository> <id>aliyun</id&...原创 2020-04-03 11:08:56 · 7930 阅读 · 0 评论 -
Spark on yarn
Spark 的on yarn 集群模式●官方文档http://spark.apache.org/docs/latest/running-on-yarn.html准备工作1.安装启动Hadoop(需要使用 HDFS 和 YARN,已经ok)2.安装单机版Spark(已经ok)注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的...原创 2020-04-03 10:38:11 · 8684 阅读 · 0 评论 -
Sprak Standalone-HA
Standalone-HA高可用模式 (解决 单点 问题)原理Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:1.基于文件系统的单点恢复(Single-Node Recovery with Local File...原创 2020-04-03 10:23:56 · 7223 阅读 · 0 评论 -
Spark Standalone Test
测试Standalone●需求使用集群模式运行Spark程序读取HDFS上的文件并执行WordCount●集群模式启动spark-shell/export/servers/spark/bin/spark-shell --master spark://node001:7077●运行程序 :●准备数据vim /opt/tt.txt hello me...原创 2020-04-03 09:54:25 · 7571 阅读 · 0 评论 -
Spark Standalone
Standalone集群模式集群角色介绍:Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型,master是集群中含有master进程的节点slave是集群中的worker节点含有E...原创 2020-04-03 09:39:55 · 7604 阅读 · 0 评论 -
Spark 安装部署
local本地模式-Spark初体验 :开箱即用 解压即用(不需要修改任何配置)解压 :tar zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C ../servers/启动: 进入 cd spark-2.2.0-bin-2.6.0-cdh5.14.0/bin 命令: ./spa...原创 2020-04-02 16:55:10 · 7107 阅读 · 0 评论 -
Spark Run Mode
Spark 运行模式●Spark运行模式1.local本地模式(单机)--开发测试使用分为local单线程和local-cluster多线程2.standalone独立集群模式--开发测试使用典型的Mater/slave模式3.standalone-HA高可用模式--生产环境使用基于standalone模式,使用zk搭建高可用,避免Master是有单点故障的...原创 2020-04-02 08:25:17 · 7200 阅读 · 0 评论 -
Spark VS Hadoop
Spark 扩展 Hadoop Spark 类型 基础平台, 包含计算, 存储, 调度 分布式计算工具 场景 大规模数据集上的批处理 迭代计算, 交互式计算, 流计算 价格 ...原创 2020-04-02 08:19:12 · 7498 阅读 · 0 评论 -
Why is Spark popular
Spark 为什么受欢迎 ?原因1:优秀的数据模型和计算抽象:Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS),所以会产生数据...原创 2020-04-02 08:15:28 · 7063 阅读 · 0 评论 -
Introduction to the Spark
●Spark是什么Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。●官网http://spark.apache.orghttp://spark.apachecn.orgSpark特点●快与Hado...原创 2020-04-02 08:08:51 · 7149 阅读 · 0 评论