- 博客(2)
- 收藏
- 关注
原创 体验Spark shell下RDD编程
1、Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集。该类是Spark是核心类成员之一,是贯穿Spark编程的始终。初期阶段,我们可以把RDD看成是Java中的集合就可以了,在后面的章节中会详细讲解RDD的内部结构和工作原理。 2、Spark-shell下实现对本地文件的单词统计 2.1思路 word count是大数据学习的经...
2018-11-20 10:52:57 157
原创 Spark安装与配置
01、Spark安装与配置 1、hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common、hdfs、mapreduce和yarn。 2、并发和并行 并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算。 3、Spark 快如闪电集群计算引擎,应用于大规模数据处理快速通用引擎,使用内存计算...
2018-11-14 15:09:07 110
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人