Spark
是杰夫呀
记录学习的点点滴滴。
展开
-
阿里蒋晓伟:计算引擎Flink和Spark的异同与优势
作者简介:蒋晓伟老师,认真而严谨。在加入阿里之前,他曾就职于西雅图的脸书,负责过调度系统,Timeline Infra和Messenger的项目。而后在微软的SQL Server引擎担任过Principal Engineer,负责关系数据库的架构工作。2014年加入阿里以后,作为阿里搜索事业部资深搜索专家,他负责搜索工程的数据团队。本文整理自云栖社区之前对阿里搜索事业部资深搜索专家蒋...原创 2020-03-02 19:38:48 · 1621 阅读 · 1 评论 -
Spark 中 ML 和 MLlib 的特点和区别
大数据学习过程中一个重要的环节就是spark,但是在spark中有很多的知识点,很多人都傻傻分不清楚,其中,最易搞混的就是ml与mllib的区别,所以我们不妨来详细的了解一下二者的区别。1. Spark ML1)定义:ark机器学习。2)主要操作的对象:DataFrame。DataFrame是Dataset的子集,也就是Dataset[Row]。DataSet是对RDD的封装,...原创 2019-09-24 10:15:14 · 2113 阅读 · 0 评论 -
PySpark 生成Dataframe的 3 种方法总结
为什么要用Spark的DataFrame:Spark中DataFrame与Pandas中DataFrame的区别DataFrame出现在Spark版本1.3中。可以将DataFrame称为数据集,将其组织为命名列。DataFrame类似于R/Python中的关系数据库或数据框架中的表。它可以说是一个具有良好优化技术的关系表。DataFrame背后的想法是允许处理大量结构化数据。DataFra...原创 2019-09-23 18:48:21 · 9347 阅读 · 0 评论 -
大数据技术生态介绍 一文读懂
大数据本身是个很宽泛的概念,Hadoop 生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机...原创 2019-09-21 17:02:56 · 938 阅读 · 0 评论 -
Spark 2.x与1.x的对比及分析
DataFrame与Dataset 统一化了,只剩下DataSet了 flatMapToPair 由reture list变为reture iterator ForeachRDD 不再return null 更新状态的函数中,使用的Optional来自com.google.common.base,函数不能用 Spark streaming 中JavaStreamingContextFac...原创 2019-09-18 18:23:49 · 660 阅读 · 0 评论 -
Spark MLlib 分布式机器学习并行训练原理 一文读懂
在笔者看来,分布式机器学习训练有三个主要的方案,分别是Spark MLlib,Parameter Server和TensorFlow,倒不是说他们是唯三可供选择的平台,而是因为他们分别代表着三种主流的解决分布式训练方法。今天我们先从Spark MLlib说起,看看最流行的大数据计算平台是如何处理机器学习模型的并行训练问题的。说起Spark,我想不会有任何算法工程师是陌生的。作为流行了至少五年...原创 2019-09-12 10:31:42 · 1744 阅读 · 0 评论 -
Spark报错It appears that you are attempting to broadcast an RDD or reference an RDD from an action
Spark报错:Exception: It appears that you are attempting to broadcast an RDD or reference an RDD from an action or transformation. RDD transformations and actions can only be invoked by the driver, not...原创 2019-09-09 19:23:05 · 3867 阅读 · 0 评论 -
Spark读取文件的两种方法textFile和wholeTextFiles
sc.textFile()sc.wholeTextFiles()sc.textFile(path)能将path里的所有文件内容读出,以文件中的行作为一条记录的方式。所有文件的每一行都相当于 List中以 “,”号 隔开的一个元素,因此可以在每个partition中用for i in data的形式遍历处理Array里的数据。sc.wholeTextFiles(path)返回...原创 2019-09-09 15:58:34 · 10318 阅读 · 0 评论 -
大数据分析工程师面试37题 ◀ Spark
为什么考察Spark?Spark作为大数据组件中的执行引擎,具备以下优势特性。(《Spark一文读懂》:https://blog.csdn.net/sinat_26811377/article/details/100046929)高效性。内存计算下,Spark 比 MapReduce 快100倍。Spark使用最先进的DAG调度程序、查询优化程序和物理执行引擎,实现批量和流式数据的高性...原创 2019-09-05 22:14:50 · 496 阅读 · 0 评论 -
Spark报错ValueError: Cannot run multiple SparkContexts at once
启动SparkContext的时候,报错ValueError: Cannot run multiple SparkContexts at once; existing SparkContext出现原因:之前已经启动了SparkContext,所以需要先关闭Spark,然后再启动。解决方法:输入命令sc.stop()...原创 2019-08-22 22:23:24 · 1600 阅读 · 0 评论 -
Spark退出spark-shell
在终端输入命令::quit成功!原创 2019-08-21 22:24:39 · 5490 阅读 · 0 评论 -
Spark Streaming 一文读懂
Spark Streaming:流计算框架以往,批处理和流计算被看作大数据系统的两个方面。我们常常能看到这样的架构——以 Kafka、Storm 为代表的流计算框架用于实时计算,而 Spark 或 MapReduce 则负责每天、每小时的数据批处理。在 ETL 等场合,这样的设计常常导致同样的计算逻辑被实现两次,耗费人力不说,保证一致性也是个问题。Spark Streaming 正是诞生于...原创 2019-08-24 01:34:08 · 484 阅读 · 0 评论 -
Spark 一文读懂
前言Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce 的接任者,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。Apache Spark 诞生于大名鼎鼎的 AMPLab(这里还诞生过 Mes...原创 2019-08-23 23:25:52 · 437 阅读 · 0 评论