Spark简介

Spark集群由一个驱动程序和多个执行程序构成。

任何spark程序的编写从SparkContext开始。SparkContext的初始化需要SparkConf对象,SparkConf包含spark集群配置的各种参数。初始化后可用SparkContext对象包含的方法创建操作分布式数据集和共享变量。Spark shell可自动完成上述初始化。

从./bin运行spark-shell或pyspark会分别打开Scala shell或Python shell并初始化一个SparkContext对象sc

一、弹性分布式数据集(Resilient Distributed Dataset, RDD)

Spark核心概念之一。一个RDD代表一系列记录,这些记录被分配到一个集群的多个节点上。Spark中的RDD具有容错性,即当某个节点任务失败时,RDD会在余下的节点上自动重建,一边任务能最终完成。

1.       RDD创建

得到可供操作的分布式记录集。

l  从现有集合创建

collection =["a", "b", "c", "d"];

rddFromCollection = sc.parallelize(collection)

l  从本地文件中创建

2.       Spark操作

操作分为转换(transformation)和执行(action)。转换操作对一个数据集中的所有记录执行某种函数,使记录发生改变;执行操作运行某些计算或聚合操作,并将结果返回运行SparkContext的驱动程序。

2.1         转换操作

map: 对RDD里的每条记录都执行某个函数,从而将输入映射为新的输出。

2.2         执行操作

count: 返回RDD中的记录数目

sum: 对所有记录的长度求和

collect将整个RDD以集合的形式返回驱动程序。通常只在需将结果返回到驱动程序节点供本地处理时调用。如果在大的数据集上调用,可能耗尽驱动程序的可用内存,导致程序崩溃。高负荷的处理应尽可能在整个集群上进行,从而避免驱动程序成为系统瓶颈。

Spark中的转换操作是延后的。在RDD上调用一个转换操作并不会立即触发相应的计算。这些转换操作会链接起来,只有在执行操作被调用时才被高效地计算。这样,大部分操作可以在集群上并行执行,只有必要时才计算结果并将其返回给驱动程序,从而提高了Spark的效率。即Spark程序从未调用执行操作就不会触发实际的计算,不会得到任何结果。

3.       RDD缓存策略

把数据缓存在集群的内存里是RDD最为强大的功能之一。

cache函数使Spark将RDD缓存在内存中。首次调用cache函数所需时间部分取决于Spark从输入源读取数据所需要的时间。下一次访问该数据集时,数据可直接从内存中读出,减少低效的IO操作,加快计算。多数情况下,会取得数倍的速度提升。

persisit函数可以指定Spark的数据缓存策略。

一、广播变量和累加器

创建广播变量和累加器是Spark的另一个核心功能。

1.       广播变量(broadcast variable)

只读变量。由运行SparkContext的驱动程序创建后发送给会参与计算的节点。对需要让各工作节点高效地访问相同数据的应用场景非常有用。如机器学习。

创建广播变量

broadcastAList = sc.broadcast([1, 2, 3, 4, 5])

非驱动程序所在节点访问广播变量

调用该变量的value方法

2.       累加器(accumulator)

广播到工作节点的变量。累加器与广播变量的关键不同在于广播变量只能读取而累加器可以累加。但累加必须是有关联的操作,得能保证在全局范围内累加起来的值能被正确地并行计算以及返回驱动程序。每个工作节点只能访问操作自己本地的累加器,全局累加器只允许驱动程序访问。累加器也通过value访问。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习是一种人工智能(AI)的子领域,致力于研究如何利用数据和算法让计算机系统具备学习能力,从而能够自动地完成特定任务或者改进自身性能。机器学习的核心思想是让计算机系统通过学习数据中的模式和规律来实现目标,而不需要显式地编程。 机器学习应用非常广泛,包括但不限于以下领域: 图像识别和计算机视觉: 机器学习在图像识别、目标检测、人脸识别、图像分割等方面有着广泛的应用。例如,通过深度学习技术,可以训练神经网络来识别图像中的对象、人脸或者场景,用于智能监控、自动驾驶、医学影像分析等领域。 自然语言处理: 机器学习在自然语言处理领域有着重要的应用,包括文本分类、情感分析、机器翻译、语音识别等。例如,通过深度学习模型,可以训练神经网络来理解和生成自然语言,用于智能客服、智能助手、机器翻译等场景。 推荐系统: 推荐系统利用机器学习算法分析用户的行为和偏好,为用户推荐个性化的产品或服务。例如,电商网站可以利用机器学习算法分析用户的购买历史和浏览行为,向用户推荐感兴趣的商品。 预测和预测分析: 机器学习可以用于预测未来事件的发生概率或者趋势。例如,金融领域可以利用机器学习算法进行股票价格预测、信用评分、欺诈检测等。 医疗诊断和生物信息学: 机器学习在医疗诊断、药物研发、基因组学等领域有着重要的应用。例如,可以利用机器学习算法分析医学影像数据进行疾病诊断,或者利用机器学习算法分析基因数据进行疾病风险预测。 智能交通和物联网: 机器学习可以应用于智能交通系统、智能城市管理和物联网等领域。例如,可以利用机器学习算法分析交通数据优化交通流量,或者利用机器学习算法分析传感器数据监测设备状态。 以上仅是机器学习应用的一部分,随着机器学习技术的不断发展和应用场景的不断拓展,机器学习在各个领域都有着重要的应用价值,并且正在改变我们的生活和工作方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值