Spark
lishengping_max
专注大数据领域
展开
-
Spark学习07——创建DataFrame的方法
一、简介基于Row的DateSet就是DataFrame,即DataFrame是DateSet的一个子集,DataFrame只是DateSet的叫法二、创建方法1. 使用toDF函数创建DataFrameobject CreateDataFrameFun { def main(args: Array[String]): Unit = { val spark = SparkSes...原创 2019-09-19 11:35:43 · 179 阅读 · 0 评论 -
Spark学习06——键值对RDD行动算子
所有键值对RDD行动算子如下:collectAsMap、countByKey、fold、lookup、saveAsSequenceFile当然键值对RDD可以使用所有RDD行动算子,介绍详见:https://blog.csdn.net/qq_23146763/article/details/101013861具体解释和例子1. collectAsMap将结果以映射表的形式返回,以便查询...原创 2019-09-19 11:25:13 · 161 阅读 · 0 评论 -
Spark学习05——键值对RDD转换算子
所有键值对RDD转换算子如下:mapValues、flatMapValues、sortByKey、combineByKey、foldByKey、groupByKey、reduceByKey、aggregateByKey、cogroup、join、leftOuterJoin、rightOuterJoin当然键值对RDD可以使用所有RDD转换算子,介绍详见:https://blog.csdn.ne...原创 2019-09-19 11:14:27 · 378 阅读 · 0 评论 -
Spark学习04——RDD行动算子
所有RDD行动算子如下:aggregate、collect、count、first、foreach、reduce、take、takeOrdered、takeSample、saveAsObjectFile、saveAsTextFile具体解释和例子1. aggregate概念1.将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb...原创 2019-09-19 10:58:20 · 569 阅读 · 0 评论 -
Spark学习03——RDD转换算子
所有RDD转换算子如下:map、faltmap、mapPartitions、mapPartitionsWithIndex、filter、sample、union、intersection、distinct、cartesian、pipe、coalesce、repartition、repartitionAndSortWithinPartitions、glom、randomSplit具体解释和例子...原创 2019-09-18 16:51:10 · 401 阅读 · 0 评论 -
Spark学习02——创建DStream的方法
Spark Streaming提供两类内置流媒体源。基本来源:StreamingContext API中直接提供的源。示例:文件系统和套接字连接。高级资源:Kafka,Flume,Kinesis等资源可通过额外的实用程序类获得。基本来源如下,高级来源可参考官网例子:https://github.com/apache/spark/blob/master/examples/src/main/s...原创 2019-09-18 16:29:49 · 476 阅读 · 0 评论 -
Spark学习01——创建RDD的所有方法
方式一、从内存中创建1.makeRDD val rdd = sc.parallelize(List("zhangsan", "lisi", "wangwu"))2.parallelize val rdd2 = sc.makeRDD(List("zhangsan", "lisi", "wangwu"))区别:makeRDD函数有两种实现,第一种实现其实完全和parallelize一致...原创 2019-09-18 15:39:16 · 318 阅读 · 0 评论 -
Spark Sql用户权限异常记录
使用SparkSql存Hive数据报错如下19/09/11 14:53:10 ERROR metadata.Hive: MetaException(message:User appuser does not have privileges for ALTERTABLE_ADDPARTS) at org.apache.hadoop.hive.metastore.api.ThriftHiveMet...原创 2019-09-12 10:25:16 · 2203 阅读 · 0 评论 -
Spark读取--files文件
1.读取代码Properties properties = new Properties();properties.load(new FileInputStream("/etc/hive/conf/test.properties"));2.–files配置spark2-submit \ --class xxx \ --master yarn \ --deploy-mode c...原创 2019-08-19 16:47:45 · 1697 阅读 · 0 评论 -
spark开发问题记录
环境:spark-2.1.0-bin-hadoop2.7一、spark on yarn client模式1.JavaSparkContext not serializable解决: JavaSparkContext不是可序列化的,是不应该。它不能用于函数发送到远程工作者。使用static修饰JavaSparkContext,序列化会忽略静态变量,即序列化不保存静态变量的状态。tr原创 2017-05-21 17:21:00 · 3982 阅读 · 0 评论 -
Spark Streaming中空RDD的处理
一、前言 在Spark Streaming中,job不断的产生,有时候会产生一些空RDD,而基于这些空RDD生成的job大多数情况下是没必要提交到集群执行的。执行没有结果的job,就是浪费计算资源,数据库连接资源,产生空文件等。 这里介绍两种判断空RDD的方式 第一种是以Receiver接收数据时产生的BlockRDD或WriteAheadLogBackedBlockRD转载 2018-01-24 18:44:52 · 1108 阅读 · 0 评论 -
Spark Streaming正确关闭方法
Spark1.6以后1.配置以下参数 spark.streaming.stopGracefullyOnShutdown=true 解释 该参数决定是否需要以Gracefully方式来关闭Streaming程序(详情请参见SPARK-7776)。Spark会在启动 StreamingContext 的时候注册这个钩子,如下:shutdownHookRef = Shutdown原创 2018-01-24 16:12:59 · 5140 阅读 · 0 评论 -
Spark Streaming使用checkpoint容错
一、checkpotin说明 流媒体应用程序必须全天候运行,因此必须对与应用程序逻辑无关的故障(例如,系统故障,JVM崩溃等)具有恢复能力。为了做到这一点,Spark Streaming需要检查点足够的信息到容错存储系统,以便从故障中恢复。有两种类型的检查点数据。 元数据检查点 - 将定义流式计算的信息保存到HDFS等容错存储中。这用于从运行流应用程序的驱动程序的节点的故障中恢复(原创 2018-01-24 10:56:59 · 390 阅读 · 0 评论 -
Spark各目录作用(部署目录和运行时目录)
版本:spark-2.1.1-bin-hadoop2.7一、部署目录1.bin 运行脚本目录beelinefind-spark-homeload-spark-env.sh 加载spark-env.sh中的配置信息,确保仅会加载一次pyspark 启动python spark shell,./bin/pyspark --master local[2]run-examp原创 2018-01-11 11:31:09 · 5014 阅读 · 0 评论 -
spark运维问题记录
环境:spark-2.1.0-bin-hadoop2.71.Spark启动警告:neither spark.yarn.jars not spark.yarn.archive is set,falling back to uploading libraries under SPARK_HOME原因: 如果没设置spark.yarn.jars,每次提交到yarn,都会把$SPARK_HOME原创 2017-04-27 10:37:01 · 4134 阅读 · 0 评论 -
window下编译spark2.1.0
window下编译spark2.1.0机器环境: WIN10 JDK 1.8 git version 2.7.2.windows.1一、官网下载源码 二、下载git,运行git bash,切到源码目录 spark编译要在 bash环境下进行,不然报错[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-原创 2017-04-16 13:15:55 · 2011 阅读 · 0 评论 -
Spark学习08——RDD、DataFrame 和 Dataset
弹性分布式数据集(Resilient Distributed Dataset,RDD)从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。在什么情况下使用 RDD?下面是使用 RDD 的场景和常见案例:你希望可以对你的数据集进行最...转载 2019-09-19 14:18:12 · 216 阅读 · 0 评论