Spark
文章平均质量分 67
GeezKe
这个作者很懒,什么都没留下…
展开
-
Spark由浅到深(4) -- 数据读取与保存
文本数据读取 → Spark操作 → 处理后数据写入原创 2017-10-27 10:35:17 · 4224 阅读 · 0 评论 -
Spark由浅到深(1)--安装,测试,问题排错
安装部署// 选择需要的版本.官网下载: http://spark.apache.org/downloads.html// 部署tar -zxf spark-1.4.0-bin-hadoop2.6.tgzcd spark-1.4.0-bin-hadoop2.6// 执行SparkShell, 这里使用Python的.bin/pyspark问题&排错错误1:[GCC 4.4.7 2012031原创 2017-10-20 15:33:21 · 1149 阅读 · 0 评论 -
Spark由浅到深(2)-- 了解核心概念RDD
1. 什么是RDD ?弹性分布式数据集(Resilient Distributed Dataset,RDD),就是分布式的元素集合.在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值1.1 RDD基础两种方法创建 RDD: 1. 读取一个外部数据集; 2. 在驱动器程序里分发驱动器程序中的对象集合(比如 list 和 set)。示例://原创 2017-10-24 16:04:38 · 520 阅读 · 0 评论 -
Spark由浅到深(*)-- 基础部分代码性小结
0.预先准备安装 Spark的库// 188多Mb的文件pip install pyspark1. 初始化SparkContextfrom pyspark import SparkConf, SparkContext# 先创建一个 SparkConf 对象来配置你的应用conf = SparkConf().setMaster("local").setAppName("My App")# 然后基于原创 2017-10-30 17:04:54 · 387 阅读 · 0 评论 -
Spark由浅到深(3)-- 键值对型数据操作
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。因此刚入门时候用来练手和熟悉Spark, 巩固之前所学是很有必要的. Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD。Pair RDD 是很多程序的构成要素, 因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。1. 创建Pair RDD在 Spark 中有很多种创建原创 2017-10-26 10:27:40 · 500 阅读 · 0 评论