spark
文章平均质量分 77
通凡
这个作者很懒,什么都没留下…
展开
-
spark1——RDD深入理解
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器学习、图...转载 2015-07-07 09:44:03 · 2488 阅读 · 0 评论 -
spark中返回结果的误用——Array,Set,HashSet
今天在写spark代码时,遇到一个问题,在进行数据过滤时,总是特别的慢,后来分析了一下代码。 主业务逻辑就是用一个较小的文本数据过滤“大数据”,然后我用spark textFile进行加载然后collect形成一个集合,可能是java写多了,看到这个集合有contains方法,就使用了没有多想,然后就特别慢,排查代码发现,collect返回的是Array(scala中Array也有contain...原创 2018-08-27 13:02:36 · 1625 阅读 · 0 评论 -
spark中stream编程指导(二)
这篇文章还是接着(一)中的继续,主要阐述一下spark中定义的几种不同类型的数据源, 以及在spark流式的程序中如何应用基本数据源(basic sources)Basic SourcesWe have already taken a look at thessc.socketTextStream(...) in the quick examplewhich create翻译 2015-07-18 20:58:21 · 1219 阅读 · 0 评论 -
Spark standalone下的运行过程
Spark的Cluster Manager可以有以下几种部署方式: 1. standalone 2. Mesos 3. YARN 4. EC2 5. Local其中standalone方式是spark自带的部署方式,下面我们分别对没有HA的standalone模式和带有HA的standalone模式中application的提交与具体的运行流程进行一个比较详尽的分析。没有HA的standa原创 2016-05-18 11:01:25 · 6140 阅读 · 0 评论 -
Spark RDD详解
1、RDD是什么RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。RDD的描述Internally, each RDD is characterized by five main properties:A list of partitionsA fu原创 2016-05-13 18:46:46 · 14832 阅读 · 0 评论 -
Spark学习资料汇总
以上是楼主自己收集的spark学习的一些资料,希望对大家有所帮助1. 书籍Learning SparkMastering Apache Spark2. 网站official siteuser mailing listspark channel on youtubespark summitmeetupspark third party packagesdatabr原创 2016-05-13 14:52:00 · 1390 阅读 · 0 评论 -
Spark 执行过程以及相应概念解释
相关概念Client:客户端进程,负责提交作业到Master。Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Drive原创 2016-02-24 15:21:37 · 2721 阅读 · 0 评论 -
Spark程序编写过程中的常见问题
1、使用IDEA 或者是 eclipse IDE来编写程序时,关于导包的问题。在这些IDE过程中,如果网络可以的话,建议选择maven或者是sbt的模式,但是如果网络很差的话,还是老老实实的把我们需要的包导入吧,编写spark程序时,需要导入的 包,只有一个,那就是spark-assembly-1.4.0-hadoop2.6.0.jar,只要是assembly类型的集成包就行,一般都会满足你的原创 2015-09-23 15:46:12 · 2189 阅读 · 0 评论 -
spark中stream编程指导(一)
spark stream是对spark核心api的扩展,其有着很好的扩展性,很高的吞吐量以及容错性的动态数据的流式处理过程。数据可以来自不同的数据源,例如Kafka, Flume, Twitter, ZeroMQ, Kinesis, or TCP sockets,一些具有高级功能的复杂的算法,例如map,reduce, join and window,可以使用这些算法来进行数据的处理。最终,将翻译 2015-07-17 19:45:29 · 2107 阅读 · 0 评论 -
hadoop快速搭建(参考)
在搭建的时候主要参考这篇博文,感觉写的还是比较详细;但是在多次格式化hdfs过后,集群可能出现数据节点不能正常启动的情况,这个主要是由于data和system目录下的current文件夹中的version文件的版本号不一致所导致的,可以手动将其改正;也可以将其直接删除,然后直接格式化一次,在直接生成即可。在hadoop配置文件 的时候,可以多参考其他的文章。标签:原创作品,允许转载,转载时转载 2015-07-16 15:11:06 · 638 阅读 · 0 评论 -
spark提交命令详解
本片文章主要结合官网的提交说明进行,详情请看http://spark.apache.org/docs/latest/submitting-applications.html./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... # other options \ [appl原创 2015-07-16 16:05:58 · 7849 阅读 · 0 评论 -
spark启动时 问题
我的spark是搭建在hadoop上面的,启动hadoop以后,接着启动spark的时候,会在启动命令行提示一下信息,spark2: failed to launch org.apache.spark.deploy.worker.Worker:最后分析可知,是由于没有打开spark的7077端口的原因,解决方案:关闭spark服务,在所有节点运行打开端口操作,具体命令如下所示:原创 2015-07-16 15:27:10 · 2532 阅读 · 0 评论 -
spark中的聚合函数总结
PairRDDFunctions中的函数:def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[(K, U)]Aggregate the values of each key, using given combine func...原创 2018-09-13 19:40:25 · 2645 阅读 · 1 评论