大数据
wenqiang su
这个作者很懒,什么都没留下…
展开
-
Spark-键值对
Spark-键值对操作 动机 Spark为包含键值对类型的RDD提供了一些专有操作,这些RDD被称为 Pair RDD . 其提供了并行操作各个键或跨节点重新进行数据分组的操作借口. 创建Pair RDD # 在python中分割出句子中的第一个单词为键,原句子为值的键值对: pairs = lines.map(lambda x: (x.split(" ")[0) , x)) Pair R...原创 2019-11-10 23:36:51 · 267 阅读 · 0 评论 -
Spark-RDD
弹性分布式数据集(Resilient Distribute Dataset) RDD其实就是分布式元素的集合。 在Spark中,对数据的所有操作不外乎创建RDD,转化已有的RDD以及调用RDD操作进行求值。 Spark会自动讲RDD中的数据分发到集群上,并讲操作并行化执行。 RDD基础: Spark中RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区被运行在集群中的不...原创 2019-11-05 23:11:37 · 129 阅读 · 0 评论 -
Spark的安装和初体验
Spark的安装和初体验 电脑环境: 操作系统:win10 java:jdk12.0 python:python3.7 Hadoop:没装Hadoop 下载地址: http://spark.apache.org/downloads.html 安装:直接解压 测试: 1.命令行进入spark文件夹的bin目录下,输入spark-shell进入scale shell。 结果:报错: ERROR S...原创 2019-08-06 15:51:00 · 221 阅读 · 0 评论