分布式计算
一只老风铃
欣于所遇,暂得于己,快然自足。
展开
-
Hadoop MapReduce体系概述
MapReduce是一种并行编程模式,这种模式使得软件开发者可以轻松的编写分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分配到大量的机器集群上,并提供一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理。在早期的MapReduce框架中,主要由一个单独运行在主节点的JobTracker进程和运行在每个集群从节点上的T...原创 2019-02-22 20:26:35 · 369 阅读 · 0 评论 -
Spark RDD数据集
Spark对数据的核心抽象为RDD 弹性分布式数据集,RDD其实就是分布式的元素集合,在Spark中,对数据的操作包括创建RDD、转化已有RDD以及调用RDD操作进行求值,而这些操作背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行RDD是一个不可变得分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群中得不同节点,RDD可以包含Pyhton Java Scala...原创 2019-03-24 13:34:50 · 841 阅读 · 0 评论 -
Spark shell交互
Spark带有交互式的Shell 可以作为即时数据分析接口,相对于Python Bash Windows Shell等,Spark Shell最大的特点是可以用来与分布式存储在许多机器的内存或磁盘上数据进行交互,并且处理过程的分发由Spark自动完成Spark能够在工作节点上把数据读取到内存,所以分布式计算都可以在几秒内完成,即使探索性分析变得很适合Spark,Spark提供Python以及S...原创 2019-03-24 13:05:12 · 578 阅读 · 0 评论 -
Spark 软件栈架构概述
Spark是一个用于实现快速通用的集群计算的平台在速度方面,Spark拓展了MapReduce计算框架,并且高效的支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,Spark的一个核心优势是内存计算,因而速度更快。Spark适用于各种各样的不同的分布式平台的场景,包括批处理、迭代计算、交互式查询、流处理,通过在一个统一的框架下支持这些计算,减轻了对各种平台分别管理调控的负担...原创 2019-03-24 12:28:16 · 4698 阅读 · 0 评论 -
Spark pairRDD的聚合操作一
当数据集以键值对形式组织的时候,聚合相同的键的元素进行一些统计是很常见操作,如基本RDD上的fold() combine() reduce()等行动操作,pairRDD上则有相应的针对键的转化操作,Spark上有一组类似的操作,可用组合具有相同键的值,这些操作返回RDD 但它们是转化操作而不是行动操作reduceByKey()与reduce()相当类似,它接收一个函数,并使用函数对值进行合并,...原创 2019-03-26 20:20:45 · 873 阅读 · 0 评论 -
Spark pairRDD的创建与转化
键值对RDD是Spark中许多操作的常见数据类型,键值对RDD通常用来进行聚合计算,一般先通过ETL 抽取,转化,装载操作来将数据转化为键值对形式,这类RDD称为 pair RDD ,提供了并行操作各个键或跨节点重新进行数据分组——创建pair RDD在Spark中有多种创建pair RDD的方式,很多存储键值对的数据格式会在读取时直接转换为键值对数据组成的pair RDD,此外,当需要把...原创 2019-03-26 18:29:37 · 1798 阅读 · 0 评论 -
Spark 基本RDD操作
存在一些转化操作和行动操作,受任意数据类型的RDD支持,即基本RDD操作——针对各个元素的转化操作最常用的转化操作map() 和 filter() 转化操作map()接收一个函数,把这个函数用于RDD的每一个元素,将函数的返回结果作为结果设置为RDD中对应元素的值,而转化操作filter()则接收一个函数,并将RDD中满足该函数的元素放入新的RDD中map()操作可以用于做各种事情,可...原创 2019-03-25 20:07:34 · 986 阅读 · 0 评论 -
Spark 传递函数
Spark大部分转化操作和一部分行动操作,都需要依赖用户传递的函数进行计算以Java为例在Java中,函数需要作为实现 org.apache.sparj.api.java.function包中任一函数接口的对象来传递,根节不同的返回类型,定义了不同的接口标准Java函数接口函数名 实现的方法 含义 Function<T,R> R call(T) ...原创 2019-03-25 18:42:13 · 539 阅读 · 0 评论 -
Hadoop HDFS命令
在Master主机的终端中,可以使用提供的HDFS指令,主要有命令 说明 hadoop fs -mkdir 创建HDFS目录 hadoop fs -ls 查看HDFS目录 hadoop fs -copyFromLocal 复制本地文件到HDFS hadoop fs -put 复制本地文件到HDFS(覆盖) hadoop fs -cat ...原创 2019-03-21 12:31:59 · 228 阅读 · 0 评论 -
Hadoop HDFS体系概述
HDFS是Hadoop的核心模块,Hadoop体系结构主要通过HDFS来实现分布式存储,HDFS的体系结构,采用主从(Master/Slave)结构模型。一个HDFS集群由一个NameNode和若干个DataNode组成。其中NameNode作为主服务器,管理文件系统的命名空间和处理客户端的文件读写操作。集群中的DataNode管理存储的数据。——HDFS中的Namenode主节点...原创 2019-02-22 20:11:55 · 507 阅读 · 0 评论 -
Spark RDD的创建
——创建RDD2种方式 读取外部数据集 或 在驱动器程序中对一个集合进行并行化最简单方式把已有的集合传给SparkContext的Parallelize()方法lines=sc.parallelize(["pandas","apple"]) //python中的parallelize()方法val lines=sc.parallelize(list("pandas","appl...原创 2019-03-24 14:09:05 · 1321 阅读 · 0 评论