spark
qq_26369213
这个作者很懒,什么都没留下…
展开
-
spark源码编译
参考网址:http://spark.apache.org/docs/latest/building-spark.html由于spark对hadoop版本有一定的依赖,所以建议使用源码来编译,本次编译的版本为:spark2.2。0由于这次编译需要CDH的HADOOP依赖,解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:<repository>...原创 2018-03-23 21:25:15 · 158 阅读 · 0 评论 -
spark集群模式部署
参考网址:http://spark.apache.org/docs/latest/cluster-overview.html在2.3版本中,spark支持以下集群管理 Standalone – 简单易用的集群管理模式。 Hadoop YARN – 应该是目前spark最常用的集群模式了,yarn是hadoop2中的资源管理器。 Apache Mesos – 一个通用的集群,可以运...原创 2018-03-31 22:04:45 · 308 阅读 · 0 评论 -
spark - HistoryServer
spark会提供一个web ui,使用者可以通过此ui对查看作业的相关信息,例如:stages 和 tasks的调度、RDD使用内存情况、环境变量 以及 executors的运行信息。但是当作业执行完就没办法在查看相关的信息。但我们我可以通过Spark’s history server查看这些以及执行完毕的作业信息。1、如何开启?1.1、修改 spark-defaults.co原创 2018-04-08 21:12:04 · 252 阅读 · 0 评论 -
spark - RDD 持久化
spark作业中,对RDD进行action操作时,会根据血缘关系从头计算。如果RDD被计算多次,建议将RDD进行持久化,确保该RDD本身只被计算一次。scala> val res = sc.textFile("file:/opt/data/emp.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)res: org.apa...原创 2018-04-14 21:58:15 · 213 阅读 · 0 评论 -
spark-shuffle
shuffle 操作Spark中的某些算子会触发一个名为shuffle的时间。Shuffle是spark一种重新分配数据的机制,便于不同分区之间进行分组。Shuffle都会涉及数据的序列化、磁盘IO 和 网络IO,使得Shuffle成为一种复杂而昂贵的操作。背景为理解Shuffle过程中发生什么,举个reduceByKey的例子。reduceByKey操作生产一个新的RDD,组原创 2018-04-16 23:00:26 · 332 阅读 · 0 评论 -
sparkSQL 访问mysql数据
1、如果使用spark-shell 操作,需要修改spark-defaults.conf 配置spark.executor.extraClassPath=/opt/software/hive/lib/mysql-connector-java-5.1.45-bin.jarspark.driver.extraClassPath=/opt/software/hive/lib/mysql-connecto...原创 2018-04-04 22:45:42 · 449 阅读 · 0 评论 -
spark - Serialization
序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。Java serialization 在默认情况下,Spark会使用Java的ObjectOutputStream框架对对象进行序列化,并且可以与任何实现java....原创 2018-04-30 12:24:57 · 362 阅读 · 0 评论 -
Spark-SQL学习笔记(1) - Datasets and DataFrames
概述 Spark SQL是Spark中的一个模块,负责结构化数据的处理。它跟Spark RDD API不一样,Spark SQL提供的接口会提供更多关于数据和执行计算的信息。在内部,Spark SQL使用这些额外的信息去执行额外的优化。可以通过SQL 和 Dataset API与Spark SQL进行交互。当使用同一个执行引擎得到的计算结果,它是不会依赖于使用的API/编程语言。这意味着开发...原创 2018-05-07 22:03:08 · 305 阅读 · 0 评论