2017年01月_小爷毛毛（卓寿杰）

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 RDD Join 性能调优

阅读本篇博文时，请先理解RDD的描述及作业调度：[《深入理解Spark 2.1 Core （一）：RDD的原理与源码分析》]（http://blog.csdn.net/u011239443/article/details/53894611#t16）Join数据是我们在Spark操作中的很重要的一部分。Spark Core 和Spark SQL的基本类型都支持join操作。虽然join很常用而且功能

2017-01-12 17:18:16 9991

原创深入理解Spark 2.1 Core （八）：Standalone模式容错及HA的原理与源码分析

第五、第六、第七篇博文，我们讲解了Standalone模式集群是如何启动的，一个App起来了后，集群是如何分配资源，Worker启动Executor的，Task来是如何执行它，执行得到的结果如何处理，以及app退出后，分配了的资源如何回收。但在分布式系统中，由于机器众多，所有发生故障是在所难免的，若运行过程中Executor、Worker或者Master异常退出了，那该怎么办呢？这篇博文，我们就来讲

2017-01-09 14:27:24 2122

原创深入理解Spark 2.1 Core （七）：任务执行的原理与源码分析

上篇博文《深入理解Spark 2.1 Core （六）：资源调度的实现与源码分析》中我们讲解了，AppClient如何启动，启动后如何为该app分配executor资源，以及分析了在Spark1.4之前资源调度算法的bug。接下来，我们就来讲逻辑上资源调度完后，该如何物理上启动Executor，以及Executor如何执行Task的。启动Executor 调用栈如下：Master.allocat

2017-01-06 23:08:07 3086 2

原创深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

在上篇博文中，我们讲到了如何启动Master和Worker，还讲到了如何回收资源。但是，我们没有将AppClient是如何启动的，其实它们的启动也涉及到了资源是如何调度的。这篇博文，我们就来讲一下AppClient的启动和逻辑与物理上的资源调度。

2017-01-05 23:25:43 5449 1

原创深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

概述前几篇博文都在介绍Spark的调度，这篇博文我们从更加宏观的调度看Spark，讲讲Spark的部署模式。Spark部署模式分以下几种：local 模式local-cluster 模式Standalone 模式YARN 模式Mesos 模式我们先来简单介绍下YARN模式，然后深入讲解Standalone模式。YARN 模式介绍YARN介绍YARN是一个资源管理、任务调度的框架，主要包含

2017-01-05 17:25:14 3170

原创深入理解Spark 2.1 Core （四）：运算结果处理和容错的原理与源码分析

在上一篇博文《深入理解Spark 2.1 Core （三）：任务调度器的实现与源码分析》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文，我们来看看当executor计算完任务后，Spark是如何处理获取的计算结果与容错的。概述对于计算结果，会根据结果的大小有不同的策略：生成结果在(∞,1GB)(\infty,1GB)：结果直接丢弃，可以通过spark.dr

2017-01-04 22:11:14 3998 1

原创深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

上一篇博文《深入理解Spark 2.1 Core （二）：DAG调度器的实现与源码分析》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks来提交任务。这篇我们就从taskScheduler.submitTasks开始讲，深入理解TaskScheduler的运行过程。提交Task调用栈如下：TaskSchedulerI

2017-01-03 17:12:22 4195

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供，原始数据源于新浪微博，由微热点大数据研究院提供，数据集分为两部分。第一部分为通用微博数据集，该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。第二部分为疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。因此，本次评测训练集包含上述两类数据：通用微博训练数据和疫情微博训练数据，相对应的，测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。通用微博训练数据集包括27,768条微博，验证集包含2,000条微博，测试数据集包含5,000条微博。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000

2022-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 RDD Join 性能调优

原创深入理解Spark 2.1 Core （八）：Standalone模式容错及HA的原理与源码分析

原创深入理解Spark 2.1 Core （七）：任务执行的原理与源码分析

原创深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

原创深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

原创深入理解Spark 2.1 Core （四）：运算结果处理和容错的原理与源码分析

原创深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

SMP2020微博情绪分类技术评测数据集

jblas-1.2.4-SNAPSHOT

Spark机器学习文本处理数据集

Spark机器学习推荐模型数据集

Spark机器学习回归模型数据集

Spark机器学习分类模型的数据集

空空如也

原创 RDD Join 性能调优

原创 深入理解Spark 2.1 Core （八）：Standalone模式容错及HA的原理与源码分析

原创 深入理解Spark 2.1 Core （七）：任务执行的原理与源码分析

原创 深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

原创 深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

原创 深入理解Spark 2.1 Core （四）：运算结果处理和容错的原理与源码分析

原创 深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析

SMP2020微博情绪分类技术评测数据集

jblas-1.2.4-SNAPSHOT

Spark机器学习文本处理数据集

Spark机器学习推荐模型数据集

Spark机器学习回归模型数据集

Spark机器学习分类模型的数据集

空空如也

原创深入理解Spark 2.1 Core （八）：Standalone模式容错及HA的原理与源码分析

原创深入理解Spark 2.1 Core （七）：任务执行的原理与源码分析

原创深入理解Spark 2.1 Core （六）：资源调度的原理与源码分析

原创深入理解Spark 2.1 Core （五）：Standalone模式运行的原理与源码分析

原创深入理解Spark 2.1 Core （四）：运算结果处理和容错的原理与源码分析

原创深入理解Spark 2.1 Core （三）：任务调度器的原理与源码分析