大数据
tiantao2012
这个作者很懒,什么都没留下…
展开
-
spark的安装和使用
1.首先检查是否安装了java和scala可以通过java -version检查java是否成功安装可见通过检测scala 检查scala是否成功安装下载spark wget http://mirror.bit.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz解压tar -zxvf s原创 2018-03-08 15:53:12 · 1479 阅读 · 0 评论 -
spark job提交6
driver端调用launchTasks来向worker节点中的executor发送启动任务命令spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def launchTasks(tasks: Seq[Seq[Tas...原创 2018-08-22 10:52:14 · 403 阅读 · 0 评论 -
spark job提交4
taskscheduler的submitTasks是通过TaskSchedulerImpl的submitTasks实现,stage由tasks组成,task被封装成taskset, override def submitTasks(taskSet: TaskSet) { val tasks = taskSet.tasks logInfo("Adding task set " ...原创 2018-08-13 14:43:26 · 314 阅读 · 0 评论 -
spark job提交
当用户生成sparkcontext是,在读入文件,可以看出这里直接调用rdd的saveAsTextFilespark-master\spark-master\core\src\main\scala\org\apache\spark\api\java\JavaRDDLike.scaladef saveAsTextFile(path: String): Unit = {#触发rdd的a...原创 2018-08-08 09:23:28 · 805 阅读 · 0 评论 -
spark应用程序的提交
spark 应用提交流程\spark-master\spark-master\core\src\main\scala\org\apache\spark\deploy\SparkSubmit.scalaoverride def main(args: Array[String]): Unit = {#新建一个SparkSubmit 最后调用其doSubmit val submit = ...原创 2018-08-07 20:07:31 · 620 阅读 · 0 评论 -
spark job提交5
最终调用makeOffers来让所有的task执行在work中的executorsspark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def makeOffers() { // ...原创 2018-08-14 11:48:06 · 590 阅读 · 0 评论 -
sparkcontext中环境变量的读取和保存
sparkcontext的构造函数如下:可见sparkcontext使用sparkconf来读取设置的参数class SparkContext(config: SparkConf) extends Logging { // The call site where this SparkContext was constructed. private val creationSite: ...原创 2018-08-06 15:16:16 · 2818 阅读 · 0 评论 -
spark job提交3
在上一篇博文中有说到最后调用handlejobsubmitted中的submitStage来提交finalstagespark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\DAGScheduler.scala private def submitStage(stage: Stage) { va...原创 2018-08-10 08:59:05 · 422 阅读 · 0 评论 -
spark job提交2
private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func: (TaskContext, Iterator[_]) => _, partitions: Array[Int], callSite: CallSite, listener: J...原创 2018-08-09 08:54:05 · 363 阅读 · 0 评论 -
spark-shell到sparkcontext的过程
在bin/spark-shell 中会调用spark-submitfunction main() { if $cygwin; then # Workaround for issue involving JLine and Cygwin # (see http://sourceforge.net/p/jline/bugs/40/). # If you're usin...原创 2018-08-03 16:42:45 · 680 阅读 · 0 评论 -
spark的RDD
spark的RDD 分为两种操作,分别是actions和transformations首先生成一个RDD执行action执行transformations原创 2018-03-08 17:23:51 · 386 阅读 · 0 评论 -
HIbench
HIbench 是一个大数据的benchmark测试的套件,用来测试框架的速度,吞吐率,资源利用率等。其网站是https://github.com/intel-hadoop/HiBench其支持的框架如下:我这边以spark测试为例下载Hibench https://github.com/intel-hadoop/HiBenchHibench 遇到下面问题原创 2018-03-08 16:14:37 · 3564 阅读 · 0 评论 -
hsdf的使用
下载hadoopwget -c http://apache.fayea.com/hadoop/common/stable/hadoop-2.9.0.tar.gz解压tar -zxvf hadoop-2.9.0.tar.gz运行hadoop version配置hdfs启动hsfs只要下面一个命令就可以了启动hdfs的命令如下: ./sbin/start-dfs.sh启动成后就可以通过hdfs dfs...原创 2018-03-08 16:01:42 · 1437 阅读 · 0 评论 -
spark job提交7
当task在executor上运行时最终会在taskrunner中调用execBackend.statusUpdate来向driver端发送状态更新\spark-master\core\src\main\scala\org\apache\spark\executor\CoarseGrainedExecutorBackend.scala直接调用driverRef.Send函数来发送消息 o...原创 2018-08-29 19:24:56 · 413 阅读 · 0 评论