Spark学习笔记
文章平均质量分 53
Spark-Scala API、Spark-Python API
roguesir
非、典型算法攻城狮
展开
-
【推荐算法】推荐算法中常用的样本处理方式及其实现
推荐算法中常用的样本处理方式及其scala实现原创 2021-11-03 19:01:35 · 1174 阅读 · 0 评论 -
RDD算子之sample、takeSample源码详解
一、sample 1.描述 根据给定的随机种子,从RDD中随机地按指定比例选一部分记录,创建新的RDD。返回RDD[T] 2.源码 //返回此RDD的抽样子集 defsample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]={ require(fraction >= 0,s"Fraction must be nonnegative, but got ${fraction转载 2021-10-14 14:31:45 · 420 阅读 · 0 评论 -
博客目录——Spark学习笔记
【PySpark学习笔记一】弹性分布式数据集RDD 【PySpark学习笔记二】DataFrame用法原创 2018-10-23 20:13:50 · 650 阅读 · 0 评论 -
【PySpark学习笔记一】弹性分布式数据集RDD
RDD的内部运行方式 Spark优势:每个转换操作并行执行,大大提高速度。 数据集的转换通常是惰性的,即在transformation过程不会执行程序,只有在action过程才会执行。 创建RDD 导入相关程序库 from pyspark import SparkContext as sc from pyspark import SparkConf 创建RDD # 将list或array转为RD...原创 2018-10-16 22:50:07 · 605 阅读 · 0 评论 -
【PySpark学习笔记二】DataFrame用法
DataFrame是一种不可变的分布式数据集。Spark早期的API中,由于JVM和Py4J之间的通信开销,使用Python执行查询会明显变慢。 Python到RDD之间的通信 在PySpark驱动器中,Spark Context通过Py4J启动一个JavaSparkContext的JVM,所有的RDD转换最初都映射到Java中的PythonRDD对象。这样,Python和JVM之间就存在很多上下...原创 2018-10-23 19:56:18 · 1165 阅读 · 0 评论 -
【PySpark学习笔记三】spark-submit命令详解
spark-submit命令利用可重用的模块形式编写脚本,并且以编程方式提交作业到Spark。 spark-submit命令 spark-submit命令提供一个统一的API把应用程序部署到各种Spark支持的集群管理器上,从而免除了单独配置每个应用程序。 命令行参数 下面逐个介绍这些参数: --master:用于设置主结点URL的参数。 local:用于执行本地机器的代码。Spark运行一个...原创 2018-10-23 22:52:44 · 8501 阅读 · 0 评论 -
Scala Spark报错 task not serializable的解决办法
错误描述 今天在写spark程序时,遇到task not serializable的报错,提示task未进行序列化。 在正常spark程序在执行时会进行task序列化,当一些函数里面有外部变量时,不会序列化外部变量,由此报错。 上面报错的主要原因是在map函数的闭包内引入外部函数,外部变量没有进行序列化,我的代码结构如下: def test(sc: SparkContext, rdd1: RDD[...原创 2019-08-29 19:47:05 · 2921 阅读 · 0 评论