【大数据】Spark
自然语言处理-nlp
熟能生巧
展开
-
spark job, stage, task介绍
1. spark 如何执行程序?首先看下spark 的部署图:节点类型有:1. master 节点: 常驻master进程,负责管理全部worker节点。2. worker 节点: 常驻worker进程,负责管理executor 并与master节点通信。dirvier:官方解释为: The process running the mai转载 2017-08-03 21:59:02 · 479 阅读 · 0 评论 -
Yarn队列
yarn队列提交spark任务权限控制转载请注明出处:http://www.cnblogs.com/xiaodf/1 CapacityScheduler 1.1 模型介绍 1.2 资源分配相关参数 1.3 限制应用程序数目相关参数 1.4 队列访问和权限控制参数 2 线上实例 2.1 配置 2.1.1 配置ResourceManager使用CapacitySch...转载 2018-08-09 15:10:08 · 4055 阅读 · 0 评论 -
Spark-SQL之DataFrame操作
dycopy:http://blog.csdn.net/dabokele/article/details/52802150 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、Da...转载 2018-06-06 20:10:51 · 389 阅读 · 0 评论 -
Spark executor中task的数量与最大并发数
每个task处理一个partition,一个文件的大小/128M就是task的数量Task的最大并发数当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。默认情况下一个task对应cpu的一个核。如果一个executor可用cpu核数为8,那么一个executor中最多同是并发执行8个task;...原创 2018-05-28 17:30:55 · 6922 阅读 · 0 评论 -
spark参数解读
Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源...转载 2018-05-25 16:18:40 · 1285 阅读 · 0 评论 -
尽量使用reduceByKey代替groupByKey
val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1)) val wordCountsWithReduce = wordPairsRDD .reduceByKey(_ + _)转载 2018-05-18 18:46:11 · 3285 阅读 · 0 评论 -
toDF需要导入的包
//导入隐饰操作,否则RDD无法调用toDF方法 import sparkSession.implicits._原创 2017-10-26 10:00:02 · 4188 阅读 · 0 评论 -
spark四大特性
官方网站:http://spark.apache.orgApache Spark™ is a fast and general engine for large-scale dataprocessing.解释:spark专为大规模数据处理而设计的快速通用的计算引擎 (相对于MapReduce)特点:1) 快速Map端输出的结果要落地到磁盘,reduce端从磁盘读取,输出结果还要原创 2017-08-04 19:27:54 · 6724 阅读 · 0 评论 -
RDD理解及宽依赖和窄依赖
1)RDD概念:Resilient Distributed Datasets 弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(transformation操作)而创建。RDD可看作一个spark的对象,它本身存在于内原创 2017-08-03 21:19:57 · 19765 阅读 · 1 评论 -
利用Kryo序列化库是你提升Spark性能要做的第一件事
本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题:*Often, choose a serialization type will be the first thing you should tune to optimize a Spark application. *在Spark的架构中,在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化...转载 2018-11-30 10:43:23 · 235 阅读 · 0 评论