Spark
文章平均质量分 94
brz_em
坚持,努力,加油,不忘初心,方得始终,即使一切都很困难
展开
-
Spark学习(一)
Spark Spark简介 Lightning-fast unified analytics engine(快如闪电的统一分析引擎),是一个用于大规模数据处理的统一分析引擎。 Apache Spark 是一个快速的, 多用途的集群计算系统。它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用...原创 2018-10-29 20:34:35 · 4618 阅读 · 0 评论 -
Spark学习(二)
RDD(resilient distributed dataset) RDD概念 RDD(Resilient Distributed Dataset)是一个弹性分布式数据集,是SPark提供的抽象的弹性分布式数据集(RDD),它是可以并行操作的跨集群节点的元素集合。RDDs是从Hadoop文件系统中的一个文件(或任何其他Hadoop支持的文件系统)或驱动程序中现有的Scala集合开始创建的,并对其...原创 2018-10-30 20:37:21 · 352 阅读 · 0 评论 -
Spark SQL and DataFrames
Spark SQL and DataFrames Spark SQL Spark SQL概述 什么是Spark SQL? SparkSQL是spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrames,并且作为分布式SQL查询引擎的作用。 为什么要学SparkSQL? SparkSQL将Spark SQL转换为RDD,然后提交到集群执行,执行效率非常快,比如hive是将hi...原创 2018-11-09 21:14:04 · 643 阅读 · 0 评论 -
Spark Streaming
Spark Streaming SparkStreaming概述 SparkStreaming概念 Spark Streaming类似于Apache Storm,用于流式数据的处理。 官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输...原创 2018-11-10 20:54:32 · 419 阅读 · 0 评论 -
Spark --补充
RDD 编程补充: 1.数值RDD的统计操作 Spark对包含数值数据的RDD提供了一些描述性的统计操作,Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats()时通过一次遍历数据计算出来,并以StatsCounter对象返回。 方法 含义 count() RDD中的元素个数 mean() 元素的平均值 sum() ...原创 2018-11-10 21:04:18 · 284 阅读 · 0 评论