![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 95
brz_em
坚持,努力,加油,不忘初心,方得始终,即使一切都很困难
展开
-
Spark学习(一)
SparkSpark简介Lightning-fast unified analytics engine(快如闪电的统一分析引擎),是一个用于大规模数据处理的统一分析引擎。Apache Spark 是一个快速的, 多用途的集群计算系统。它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用...原创 2018-10-29 20:34:35 · 4580 阅读 · 0 评论 -
Spark学习(二)
RDD(resilient distributed dataset)RDD概念RDD(Resilient Distributed Dataset)是一个弹性分布式数据集,是SPark提供的抽象的弹性分布式数据集(RDD),它是可以并行操作的跨集群节点的元素集合。RDDs是从Hadoop文件系统中的一个文件(或任何其他Hadoop支持的文件系统)或驱动程序中现有的Scala集合开始创建的,并对其...原创 2018-10-30 20:37:21 · 327 阅读 · 0 评论 -
Spark SQL and DataFrames
Spark SQL and DataFramesSpark SQLSpark SQL概述什么是Spark SQL?SparkSQL是spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrames,并且作为分布式SQL查询引擎的作用。为什么要学SparkSQL?SparkSQL将Spark SQL转换为RDD,然后提交到集群执行,执行效率非常快,比如hive是将hi...原创 2018-11-09 21:14:04 · 615 阅读 · 0 评论 -
Spark Streaming
Spark StreamingSparkStreaming概述SparkStreaming概念Spark Streaming类似于Apache Storm,用于流式数据的处理。官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输...原创 2018-11-10 20:54:32 · 407 阅读 · 0 评论 -
Spark --补充
RDD 编程补充:1.数值RDD的统计操作Spark对包含数值数据的RDD提供了一些描述性的统计操作,Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats()时通过一次遍历数据计算出来,并以StatsCounter对象返回。方法含义count()RDD中的元素个数mean()元素的平均值sum()...原创 2018-11-10 21:04:18 · 255 阅读 · 0 评论