Spark
文章平均质量分 61
DanyYan
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记一:Spark.core
一、Spark.core Spark生态圈以Spark.core为核心,从HDFS、Hbase等持久层读取数据,以MESS、YARN和自身有的Standalone为资源管理器调度Job完成Spark应用程序的计算。这些应用程序可以来源于不同的Spark组件。如Spark shell 或spark commit 的批处理、Spark streaming的实时处理应用,Spark sql的查询,ML...原创 2018-11-05 11:49:36 · 666 阅读 · 0 评论 -
Spark学习笔记二:Spark.SQL
一、Spark.Sql简介 Spark.sql是Spark四大组件之一,是Spark数据处理中用的最多的组件。SparkSQL在SparkCore的基础上对外提供了SQL接口,可以让熟悉SQL的技术人员快速上手。其编程入口为SparkSession。 .SparkSQL所有的内容位于pyspark.sql这个模块下,包含了SparkSession、Column、Row等众多的核心内容。Spar...原创 2018-11-06 20:59:11 · 290 阅读 · 0 评论 -
Spark理论部分
一、spark简介 spark是AMP实验室开发的通用内存并行计算框架,使用scala语言实现的。运行速度快,易用性好,通用性强等特点,spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,如果说MapReduce是第一代并行计算框架的话,那么Spark就是第二代了。 具体区别主要有以下几点: Spark把中间数据放...原创 2018-11-05 09:29:58 · 267 阅读 · 0 评论