![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
tiantao2012
这个作者很懒,什么都没留下…
展开
-
spark的安装和使用
1.首先检查是否安装了java和scala 可以通过java -version检查java是否成功安装 可见通过检测scala 检查scala是否成功安装 下载spark wget http://mirror.bit.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz 解压tar -zxvf s原创 2018-03-08 15:53:12 · 1469 阅读 · 0 评论 -
spark job提交6
driver端调用launchTasks来向worker节点中的executor发送启动任务命令 spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def launchTasks(tasks: Seq[Seq[Tas...原创 2018-08-22 10:52:14 · 389 阅读 · 0 评论 -
spark job提交4
taskscheduler的submitTasks是通过TaskSchedulerImpl的submitTasks实现,stage由tasks组成,task被封装成taskset , override def submitTasks(taskSet: TaskSet) { val tasks = taskSet.tasks logInfo("Adding task set " ...原创 2018-08-13 14:43:26 · 303 阅读 · 0 评论 -
spark job提交
当用户生成sparkcontext是,在读入文件, 可以看出这里直接调用rdd的saveAsTextFile spark-master\spark-master\core\src\main\scala\org\apache\spark\api\java\JavaRDDLike.scala def saveAsTextFile(path: String): Unit = { #触发rdd的a...原创 2018-08-08 09:23:28 · 785 阅读 · 0 评论 -
spark应用程序的提交
spark 应用提交流程 \spark-master\spark-master\core\src\main\scala\org\apache\spark\deploy\SparkSubmit.scala override def main(args: Array[String]): Unit = { #新建一个SparkSubmit 最后调用其doSubmit val submit = ...原创 2018-08-07 20:07:31 · 615 阅读 · 0 评论 -
spark job提交5
最终调用makeOffers来让所有的task执行在work中的executors spark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def makeOffers() { // ...原创 2018-08-14 11:48:06 · 579 阅读 · 0 评论 -
sparkcontext中环境变量的读取和保存
sparkcontext的构造函数如下:可见sparkcontext使用sparkconf来读取设置的参数 class SparkContext(config: SparkConf) extends Logging { // The call site where this SparkContext was constructed. private val creationSite: ...原创 2018-08-06 15:16:16 · 2801 阅读 · 0 评论 -
spark job提交3
在上一篇博文中有说到最后调用handlejobsubmitted中的submitStage来提交finalstage spark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\DAGScheduler.scala private def submitStage(stage: Stage) { va...原创 2018-08-10 08:59:05 · 417 阅读 · 0 评论 -
spark job提交2
private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func: (TaskContext, Iterator[_]) => _, partitions: Array[Int], callSite: CallSite, listener: J...原创 2018-08-09 08:54:05 · 358 阅读 · 0 评论 -
spark-shell到sparkcontext的过程
在bin/spark-shell 中会调用spark-submit function main() { if $cygwin; then # Workaround for issue involving JLine and Cygwin # (see http://sourceforge.net/p/jline/bugs/40/). # If you're usin...原创 2018-08-03 16:42:45 · 666 阅读 · 0 评论 -
spark的RDD
spark的RDD 分为两种操作,分别是actions和transformations 首先生成一个RDD 执行action 执行transformations原创 2018-03-08 17:23:51 · 380 阅读 · 0 评论 -
HIbench
HIbench 是一个大数据的benchmark测试的套件,用来测试框架的速度,吞吐率,资源利用率等。 其网站是https://github.com/intel-hadoop/HiBench 其支持的框架如下: 我这边以spark测试为例 下载Hibench https://github.com/intel-hadoop/HiBench Hibench 遇到下面问题原创 2018-03-08 16:14:37 · 3547 阅读 · 0 评论 -
hsdf的使用
下载hadoopwget -c http://apache.fayea.com/hadoop/common/stable/hadoop-2.9.0.tar.gz解压tar -zxvf hadoop-2.9.0.tar.gz运行hadoop version配置hdfs启动hsfs只要下面一个命令就可以了启动hdfs的命令如下: ./sbin/start-dfs.sh启动成后就可以通过hdfs dfs...原创 2018-03-08 16:01:42 · 1423 阅读 · 0 评论 -
spark job提交7
当task在executor上运行时最终会在taskrunner中调用execBackend.statusUpdate来向driver端发送状态更新 \spark-master\core\src\main\scala\org\apache\spark\executor\CoarseGrainedExecutorBackend.scala 直接调用driverRef.Send函数来发送消息 o...原创 2018-08-29 19:24:56 · 390 阅读 · 0 评论