![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
一直奋斗的小猿
技术改变未来!
展开
-
Spark集群搭建
Spark安装1.1集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。Worker节点负责具体的业务运行。说明:本次安装以Standalone为例来安装。2.2 机器...原创 2019-08-03 21:00:54 · 204 阅读 · 0 评论 -
Spark core 之 RDD操作
RDD中操作分类两大类型:转换(transformation)和行动(action)转换:通过操作将一个RDD转换成另外一个RDD。行动:将一个RDD进行求值或者输出。所有这些操作主要针对两种类型的RDD:(1) 数值RDD(2) 键值对RDD我们用的最多的就是键值对RDD,然后引起一些比如说数据的不平衡,这个也就是键值对RDD引起的。RDD的所有转换操作都是懒执行的,只有当行动操...原创 2019-08-10 20:53:07 · 321 阅读 · 0 评论 -
Spark SQL 客户端查询
首先打开shell,会发现在bin目录下会有一个叫spark-sql,那除了用spark-sql外,还可以用spark-shell,那它们有什么区别呢,spark-sql仅仅类似于hive客户端,只是支持sql查询,spark-shell不仅可以支持sql查询,还可以执行RDD的一些操作,包括RDD和SparkSQL之间的转换。接下来进入spark-shell里面,会有两个输出第一个输出...原创 2019-08-14 19:44:59 · 2369 阅读 · 0 评论 -
Spark里log4j.properties日志等级设置
通常我们在console输入命令后,总会出现好多的INFO或WARN,而我们总不能第一时间看到我们运行结果或出错原因,那这个时候我们就可以将我们的log4j日志等级设置一下。首先进入到spark目录的conf下,有个log4j.properties.template,你可以复制一份然后重命名为log4j.properties。然后进入log4j.properties里编辑日志等级,那它的...原创 2019-08-07 19:31:42 · 892 阅读 · 0 评论 -
Spark SQL及RDD、DataFrame、DataSet数据抽象
**一、Spark SQL是什么?**1、Spark SQL是Spark套件中的一个模块,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。2、Spark SQL的特点:(1) 和Spark Core的无缝集成,我可以在写整个RDD应用的时候,配置Spark SQL来实现我的逻辑(2) 统一的数据访问方式...原创 2019-08-13 20:00:13 · 723 阅读 · 0 评论 -
Spark core 之 RDD运行机制深层理解
Spark coreRDD: Resilient Distributed Dataset(弹性分布式数据集),Spark计算的基石,为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法。特性:不可变:RDD创建以后就不可变了可分区:整个RDD的真实数据其实是分散在spark的很多的worker上面的,每个worker可能会存了这些数据的一部分,这个叫分片也叫...原创 2019-08-08 19:19:37 · 213 阅读 · 0 评论 -
启动spark集群时两个worker节点异常:failed to launch: nice -n 0 spark-class --webui-port 8081 spark://master:7077
之前出现这个错的时候,在网上google了好久,没解决,后来看到有人说在root用户下的 .bashrc下引入JAVA_HOME的路径,也有大佬说需要在/spark/sbin/spark-config.sh 加入JAVA_HOME的路径,我在/spark/sbin/spark-config.sh里加入JAVA_HOME的路径后,在运行就不报错了,可供参考...原创 2019-08-06 11:28:59 · 2308 阅读 · 0 评论 -
Spark之HA配置
首先安装Zookeeper集群,并启动Zookeeper集群,同时开启hdfs集群停止spark所有服务,修改配置文件spark-env.sh,在该配置文件中删掉SPARK_MASTER_IP并添加如下配置:export SPARK_DAEMON_JAVA_OPTS=" -Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deplo...原创 2019-08-05 19:39:47 · 258 阅读 · 0 评论 -
Spark之配置Job History Server
首先进入到Spark安装目录下的配置文件:cd /home/groot/soft/spark/conf将spark-default.conf.template复制为spark-defaults.conf:cp spark-defaults.conf.template spark-defaults.conf修改spark-defaults.conf文件,开启Log:vi spark-...原创 2019-08-04 19:41:11 · 275 阅读 · 0 评论 -
SparkSQL 之 IDEA创建SparkSQL程序
DataFrame 查询方式DataFrame支持两种查询方式,一种是DSL风格,另外一种是SQL风格1、DSL风格:你需要引入 import spark.implicit._ 这个隐式转换,可以将DataFrame隐式转换成RDD2、SQL风格:(1)、你需要将DataFrame注册成一张表格,如果你通过CreateTempView这种方式来创建,那么该表格Session有效,如果...原创 2019-08-15 17:39:14 · 1238 阅读 · 0 评论