![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 71
crackwl
这个作者很懒,什么都没留下…
展开
-
spark mac intellij idea开发环境
1.先安装好java sdk,配置好java环境变量2.安装spark scala可以直接brew安装,也可下载安装$ brew update$ brew info apache-spark$ brew install apache-spark$ brew install scala$ brew install sbtscala下载地址http://www.s原创 2017-07-16 20:28:19 · 2744 阅读 · 0 评论 -
spark环境运行程序遇到几个坑
1.mac下brew安装spark,运行spark-shell或start-all.sh提示spark-config start-master.sh等找不到建议在spark.apache.org/download.html下载压缩文件,在本地解压后修改环境变量即可。brew安装的spark,sbin目录在安装目录的libexec下面,运行脚本都是在安装目录/sbin下寻找,如此就会出现运行原创 2017-07-17 22:32:23 · 4813 阅读 · 1 评论 -
spark源码阅读二-spark job执行
本篇文章主要讲解driver进程spark context runJob函数执行后,最终如何提交在executor机器上分布式运行的。整个过程涉及2种进程,driver和executor。1.job提交和stage划分def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iterator[T]) =>原创 2017-08-03 09:13:12 · 375 阅读 · 0 评论 -
spark源码阅读二-spark application运行过程
本篇文章主要讲述一个application的运行过程。大体分为三部分:(1)SparkConf创建;(2)SparkContext创建;(3)任务执行。原创 2017-08-02 17:54:00 · 1143 阅读 · 0 评论 -
spark源码阅读二-spark-submit执行过程
在spark-shell提交spark任务或者在某个clinet机器命令行运行spark-submit脚本提交任务,其实都执行的spark-submit脚本。spark-submit脚本代码原创 2017-08-02 10:32:08 · 492 阅读 · 0 评论 -
spark源码阅读一-spark读写hbase代码分析
1.读取hbase代码val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result])原创 2017-08-01 22:36:58 · 650 阅读 · 0 评论 -
spark源码阅读一-spark读写文件代码分析
1.读取文件从本地文件读取sparkcontext.textFile(“abc.txt”)从hdfs文件读取sparkcontext.textFile("hdfs://s1:8020/user/hdfs/input”)原创 2017-08-01 20:06:50 · 2206 阅读 · 1 评论 -
spark源码阅读一-spark-mongodb代码分析
源码的github地址https://github.com/mongodb/mongo-spark,是mongodb发布的spark connection接口库,可以方便的使用spark读写mongodb数据1.rdd写入mongodb两种方式将生成的rdd写入mongodb,事例代码:原创 2017-07-31 15:47:29 · 2779 阅读 · 0 评论