Spark
universe_ant
这个作者很懒,什么都没留下…
展开
-
Spark简要学习
Apache Spark is a fast and general engine for large-scale data processing.原创 2016-07-23 12:49:32 · 1585 阅读 · 0 评论 -
Spark性能优化——数据倾斜
常见的数据倾斜是怎么造成的?shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比如按照key进行聚合或Join等操作,如果某个key对应的数量特别大的话,就会产生数据倾斜现象。数据倾斜就成为了整个task运行时间的短板。触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、co转载 2017-07-06 20:59:57 · 1349 阅读 · 0 评论 -
Spark集群模式概览
Spark集群模式概览本文讲解Spark如何运行于集群之上,对其中相关的组件进行介绍。组件(Components)Spark应用主程序通过引用SparkContext对象,以进程的独立集合的形式运行于集群上。该主程序被称为驱动程序(driver program)。具体地说,在集群上运行的时候,SparkContext对象可以连接多种集群管理器(cluster managers)用以翻译 2017-02-22 21:38:00 · 525 阅读 · 0 评论 -
Spark 2.0介绍:SparkSession创建和使用相关API
SparkSession —— Spark的一个全新的切入点在Spark的早期版本,SparkContext是进入Spark的切入点。我们都知道RDD是Spark中重要的API,然而它的创建和操作得使用SparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用SQLConte转载 2017-01-20 21:28:48 · 3266 阅读 · 0 评论 -
Apache Spark 2.0三种API的传说:RDD、DataFrame和Dataset
Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单、易用的APIs,支持跨多种语言(比如:Scala、Java、Python和R)来操作大数据。本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替RDD的场景。文章转载 2017-01-20 15:55:00 · 4132 阅读 · 0 评论 -
Spark架构及运算逻辑
Spark的整体流程为:Client提交应用,Master找到一个Worker启动Driver,Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph,再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler,由TaskScheduler提交任务给Executor执行。在任务执行过程中,其他组件协同工作,确保整个应用转载 2017-01-19 21:35:28 · 1940 阅读 · 0 评论 -
flatMap与map的区别
通过实验来区别flatMap和map:1.首先编辑测试文件:文件内容为:2.将测试文件上传到HDFS上:其中,test.txt为上一步编辑的测试文件,/tmp表示HDFS上的目录,要保证你的HDFS上有该目录,若没有该目录的话,则需要通过以下命令去创建:可以通过Hadoop提供的图形界面查看你的HDFS上是否拥有该/tmp目录,在浏览器中输入http://loc原创 2016-08-13 15:29:58 · 4242 阅读 · 0 评论 -
RDD与DataFrame
RDD是一个分布式的无序的列表。RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。举例如下:例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户转载 2016-08-13 12:48:48 · 670 阅读 · 0 评论 -
Spark Streaming新手指南
随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,传统的 MapReduce 等批处理框架在某些特定领域,例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求,因此诞生了一批如 S3、Samza、Storm 这样的流式分析、实时计算框架。Spark 由于其内部优秀的调度机制、快速的分布式计算能力,所以能够以极快的速度进行迭代计算。正是由于具有这样的优势,S转载 2016-09-01 17:33:55 · 921 阅读 · 0 评论 -
SparkSQL: no typetag available for xxxx问题的解决办法
case class 类要定义在Object类的上面,即要放在外面如果cass class类放在了Object类里面,就会报标题的异常转载 2016-08-22 22:53:24 · 1009 阅读 · 0 评论 -
Spark Shell简单使用
基础Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行:./bin/spark-shellSpark最主要的抽象是叫Resilient Distributed Dataset(RDD)的弹性分布式集合。RDDs可以使用Ha原创 2016-07-24 16:41:49 · 14049 阅读 · 0 评论 -
区别RDD、DataFrame和DataSet
Spark1.3.0中,以Spark SQL原有的SchemaRDD为蓝本,引入Spark DataFrame API,不仅为Scala,Python,Java三种语言环境提供了形如R和Pandas的API,而且自然而然地继承了Spark SQL的分布式数据处理能力。对于RDD、DataFrame和DataSet之间的区别目前了解的还不是很清楚,所以在下文中进行相互之间的对比,区分其中的异同。原创 2016-07-24 12:03:29 · 1206 阅读 · 0 评论 -
脱离JVM?Hadoop生态圈的挣扎与演化
目录背景JVM存在的问题1. Java对象开销2. 对象存储结构引发的cache miss3. 大数据的垃圾回收4. OOM问题解决方案定制的序列化工具Spark的序列化框架Flink的序列化框架显式的内存管理Flink的内存管理Spark的内存管理缓存友好的计算Flink中的数据结构Spark的数据结构总结参考新世纪以来...转载 2019-06-20 10:52:40 · 281 阅读 · 0 评论