pyspark
文章平均质量分 76
想当兔纸的猫
心之所向,素履以往。
展开
-
PySpark 学习笔记一
为了更好地进行大数据分析与处理,最近在学习PySpark,整理了一下笔记 ,加深印象。1 Resilient Distributed Datasets(RDD)弹性分布式数据集(RDD)是一个不可变的JVM对象的分布式集合,是Spark的基本抽象。1.1 创建RDD 准备工作:>>> import pyspark>>> from pyspark import SparkC原创 2018-01-12 17:03:30 · 8671 阅读 · 2 评论 -
PySpark 学习笔记六
6 Structured Streaming 6.1 What is Spark Streaming?Spark Streaming的核心是一个可扩展的容错流系统,它采用RDD批处理模式(即批量处理数据)并加快速度。 如下图所示,Spark Streaming接收输入数据流,并在内部将该数据流分成多个较小的批次(其大小基于批处理间隔)。 Spark引擎将这些批量的输入数据处理成批量的结果集原创 2018-01-22 17:47:14 · 5302 阅读 · 1 评论 -
PySpark 学习笔记二
2 DataFrames 和Python的dataframe类似,pyspark也有dataframe,其处理速度远快于无结构的RDD。 Spark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts,包括: HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到原创 2018-01-15 14:48:20 · 5701 阅读 · 3 评论 -
PySpark 学习笔记四
4 Introducing MLlib MLlib 即Machine Learning Library。 4.1 载入数据并转换数据 数据集下载:births_train.csv.gz.。 创建数据集的schema:import pyspark.sql.types as typlabels = [ ('INFANT_ALIVE_AT_REPORT', typ.Strin原创 2018-01-18 18:01:14 · 9808 阅读 · 1 评论 -
Ubuntu下安装pyspark
Ubuntu下安装pyspark安装环境 Python2.7 Ubuntu14.04Java6+ 步骤一:下载spark 下载地址:spark官网 ,我选择的是spark-2.2.1-bin-hadoop2.7.tgz步骤二:解压压缩包tar -xzf spark-2.2.1-bin-hadoop2.7.tgz步骤三:移动spark位置(可略)原创 2018-01-08 15:12:08 · 12859 阅读 · 2 评论 -
PySpark 学习笔记三
3 Prepare Data for Modeling 所有的数据都是脏的,不管是从网上下载的数据集,或其他来源。直到你测试和证明你的数据处于干净状态才能用来建模。因此,为了建模需要清理数据集,还需要检查数据集的特征分布,并确认它们符合预定义的标准。 3.1 检查重复项、缺失值和异常值重复项生成一个简单的dataframe如下:>>> df = spark.create原创 2018-01-16 18:59:29 · 11792 阅读 · 1 评论 -
PySpark 学习笔记五
5 Introducing the ML Package 在前面,我们使用了Spark中严格基于RDD的MLlib包。 在这里,我们将基于DataFrame使用MLlib包。 另外,根据Spark文档,现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。 5.1 ML包的介绍 从顶层上看,ML包主要包含三大抽象类:转换器、预测器和工作流。5.1.1原创 2018-01-22 10:38:34 · 10411 阅读 · 0 评论