Spark
DataGPT
透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观
展开
-
两款高性能并行计算引擎Storm和Spark比较
对Spark、Storm以及Spark Streaming引擎的简明扼要、深入浅出的比较。Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步转载 2015-07-21 21:40:15 · 1121 阅读 · 0 评论 -
Spark2.0.0集群环境部署(Spark On Yarn)
Spark 2.0.0发布已经有一段时间了,目前公司生产环境还是使用1.6系列版本。为了测试Spark 2.0.0各方面的稳定性和计算性能,我基于CDH集群环境,搭建了Spark On Yarn集群环境。 环境信息: CDH版本:CDH-5.7.0 其中,Hadoop版本:2.6.0 Java版本:1.7.0_80原创 2016-08-08 18:05:46 · 13609 阅读 · 8 评论 -
Hive On Spark执行计划总结
1、 Hive on Spark EXPLAIN statement在Hive中,命令Explain可以用来查看查询的执行计划。对于Hive on Spark,这个命令本身不会改变,还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。然后,如果hive.execution.engine设置为spark,它将代替默认的MapReduce的查询引擎,而是显示Spark查询引擎原创 2016-07-28 10:11:23 · 5307 阅读 · 1 评论 -
Spark数据分析之第5课
对于http://blog.csdn.net/jiangshouzhuang/article/details/51550275中介绍的算法得出的推荐结果不怎么理想,下面进行进一步优化。 #评价推荐质量为了使用推荐变得有用,我们可以从数据集中拿出一些艺术家的播放数据放到一边,在整个ALS模型构建过程中并不使用这些数据。这些放在一边的数据中的艺术家可以作为每个用户的优秀推荐,但这些数据并...转载 2016-06-02 23:49:48 · 1700 阅读 · 0 评论 -
Spark数据分析之第4课
#音乐推荐和Audioscrobbler数据集#1. 数据集http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html下载具体地址为:http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz#1.数据user_artist...转载 2016-05-31 23:40:10 · 2308 阅读 · 2 评论 -
Spark数据分析之第3课
#连续变量的概要统计对类别变量基数相关小的数据,非常适合用Spark的countByValue动作创建直方图。但是对连续变量,比如病人记录字段匹配分数,我们想要快速得到其分布的基本统计信息,比如均值,标准差和极值(比如最大值和最小值)。除了RDD[Double]的隐式动作,Spark支持RDD[Tuple2[K,V]]类型隐式类型转换,不但提供根据每个键来汇总的groupByKey和redu...转载 2016-05-25 23:04:32 · 2528 阅读 · 0 评论 -
Spark数据分析之第1课
本节课的主要内容为在Spark中使用Scala对数据进行分析,并熟悉简单的RDD相关的操作#HDFS文件:[hadoop@gpmaster ~]$ hdfs dfs -ls /linkageFound 10 items-rw-r--r-- 2 hadoop supergroup 26248574 2016-05-23 20:59 /linkage/block_1.csv-rw-...转载 2016-05-23 22:56:46 · 1202 阅读 · 2 评论 -
Spark数据分析之第2课
本课主要介绍对类别变量基数相对小的数据创建直方图,比如本课中对匹配和不匹配的记录数统计。#读取HDFS文件并创建RDDscala> val rawblocks = sc.textFile("/linkage")rawblocks: org.apache.spark.rdd.RDD[String] = /linkage MapPartitionsRDD[1] at textFile at...转载 2016-05-24 11:52:39 · 991 阅读 · 2 评论 -
Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce,受限于其自身的Map+Reduce计算模式,以及不够充分的大内利用,MapReduce转载 2016-01-20 21:17:51 · 1189 阅读 · 0 评论 -
为什么说cache是persist的特例?
有人经常会看到Spark中有句话说:cache是persist的特例。通过分析源码,我们来看一下,这句话的含义:\spark-1.5.0\core\src\main\scala\org\apache\spark\rdd\RDD.scala/** Persist thisRDD with the default storage level (`MEMORY_ONLY`). *原创 2015-10-20 22:23:41 · 1291 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度转载 2015-10-04 09:21:23 · 827 阅读 · 0 评论 -
Spark执行样例报警告:WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
搭建Spark环境后,调测Spark样例时,出现下面的错误:WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources原创 2015-10-01 09:43:47 · 19488 阅读 · 6 评论 -
Spark与Flink:对比与分析
Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平台,设计思想主要来源于Hadoop、MPP数据库、流式计算系统等,支持增量迭代计算。原理S转载 2015-10-17 20:42:39 · 1080 阅读 · 0 评论 -
通过Spark结合使用Hive和ORC存储格式
在这篇博客中,我们将一起分析通过Spark访问Hive的数据,主要分享以下几点内容:1. 如何通过Spark Shell交互式访问Spark2. 如何读取HDFS文件和创建一个RDD3. 如何通过Spark API交互式地分析数据集4. 如何创建Hive的ORC格式的表5. 如何使用Spark SQL查询Hive表6. 如何以ORC格式存原创 2016-09-19 16:25:42 · 22408 阅读 · 0 评论