大数据-spark
脚踏实地,仰望星空
加油,坚持努力。
展开
-
Spark集群环境的搭建
一:Hadoop集群环境的搭建hadoop集群环境的安装请参考我之前的博客:博客地址:https://blog.csdn.net/qq_37469055/article/details/84405238二:scala环境的搭建tar -zxvf scala-2.11.4.tgz修改/etc/profile文件export SCALA_HOME=/usr/local/had...原创 2019-01-15 23:19:35 · 102 阅读 · 0 评论 -
Spark中RDD的transformation和action
一:transformation和action的区别1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD2,action是得到一个值,或者一个结果(直接将RDDcache到内存中)所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action...原创 2019-01-17 17:27:30 · 470 阅读 · 0 评论 -
spark-submit 提交任务及参数说明
spark-submit 提交任务及参数说明 spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。1. 例子一个最简单的例子,部署 spark standalone 模式后,提交到本地执行。./bin/spark-submit \--master spark://localh...转载 2019-01-20 09:43:27 · 661 阅读 · 0 评论 -
Spark中JavaRDD与JavaPairRDD的相互转换
一:方法JavaRDD => JavaPairRDD:通过mapToPair函数JavaPairRDD => JavaRDD:通过map函数转换二:代码实例如下import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark....原创 2019-01-22 14:17:43 · 4414 阅读 · 0 评论