![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 64
青于蓝胜于蓝
这个作者很懒,什么都没留下…
展开
-
Spark SQL 1.6.2官方文档中文版
1 概述(Overview)2 DataFrames2.1 入口:SQLContext(Starting Point: SQLContext)2.2 创建DataFrames(Creating DataFrames)2.3 DataFrame操作(DataFrame Operations)2.4 运行SQL查询程序(Running SQL Queries Programmatically)2.5 D翻译 2017-08-29 11:41:18 · 689 阅读 · 0 评论 -
spark相关概念
RDD1、Spark的核心概念是RDD (resilient distributed dataset(弹性分布式数据集)),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(原创 2017-10-08 15:02:41 · 465 阅读 · 0 评论 -
spark创建RDD方式
Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase和HiveSQL等) 1利用集合创建RDD,就是为了方便测试。调用SparkContext的parallelize()方法进行创建并行化的数据集合。val arrays =Array(1,3,4,5,6,7,11,29)valarrayRDD =sc.par原创 2017-10-08 15:07:45 · 490 阅读 · 0 评论 -
spark算子
1:Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作map(func):返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter(func):返回一个新的数据集,由经过func函数后返回值为true的原元素组成flatMap(func)原创 2017-10-08 15:29:59 · 348 阅读 · 0 评论 -
sparkSQL性能调优
对于某些工作负载,可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据 Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后,Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用以及垃圾回收的压力。你可以通过调用sqlContext.uncacheTable("tab转载 2017-10-09 12:41:05 · 480 阅读 · 0 评论 -
Spark-submit脚本
Spark-submit.sh /opt/spark/bin/spark-submit \--master yarn \--deploy-mode cluster \--num-executors 8 \ 集群上启动的executor数--executor-memory 1g \ --executor-cores 5 \ 每个executor运行的核数,即一个原创 2017-10-15 13:23:52 · 330 阅读 · 0 评论 -
spark运行命令样例
local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100standalone集群模式:需要的配置项1, slaves文件2, spa原创 2018-01-29 20:30:06 · 461 阅读 · 0 评论