Spark
αίρεσις
这个作者很懒,什么都没留下…
展开
-
Sparksql模块(执行Spark查询)
Spark sql介绍是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。(在Spark中使用sql查询)DataFrame可处理结构化数据,所以Spark sql中先将数据集转化为RDD再将RDD转化为DataFrames对象,之后使用sql查询数据。Spark sql应用一、 在Spark-shell中:Spark...原创 2019-11-29 11:29:12 · 240 阅读 · 0 评论 -
Spark的缓存Cache
使用原因Spark RDD是惰性求值的,当对于RDD使用简单的调用操作时,Spark会每次都重算RDD及其依赖,增大损耗。为了减轻损耗避免RDD的重算且复用RDD的目的,就需要使用Spark的缓存Cache。在spark交互中:同样的处理数据比较缓存和不缓存的区别启动hdfs,zookeeper,spark在Spark下的bin中启动spark-shell交互指令快速生成:在bin目录...原创 2019-11-28 17:41:28 · 194 阅读 · 0 评论 -
对于Spark RDD的小结(学习阶段)
参考自https://blog.csdn.net/dsdaasaaa/article/details/94181269和https://blog.csdn.net/lucasmaluping/article/details/103047901的小结RDD:弹性分布式数据集,是Spark中最基本的数据抽象。理解:本质上是一个只读的分区记录集合,每个RDD是有多个分区,每个分区就是一个数据集片段...转载 2019-11-28 17:12:20 · 332 阅读 · 0 评论 -
WorldCount程序打jar包在Spark集群上运行
参照WorldCount在Spark shell中的运行(对比学习)写WorldCount程序(IDEA)前期准备:新建maven工程,在pom中加入相关配置:(注意相对应的版本)<properties> <maven.compiler.source>1.8</maven.compiler.source> <mav...原创 2019-11-28 16:51:09 · 259 阅读 · 0 评论 -
Linux上搭建Spark集群及spark shell交互式命令窗口
Spark集群搭建基础知识:Spark是用于大规模数据处理的统一分析的计算引擎;是一个快速,通用,可扩展的大数据分析引擎;基于内存计算(速度快),基于mapreduce通常将数据中间存储在磁盘上。HA机制:高可用机制,当主节点挂掉后启用备用主节点(前提是备用节点得打开及先处于待机状态)集群搭建:因为Spark是依赖于Hadoop的,所以在下载安装包时需要找到自己Hadoop的版本对应的...原创 2019-11-28 16:01:52 · 548 阅读 · 0 评论