- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 mapPartition
mapPartitions函数会对每个分区依次调用分区函数处理,然后将处理的结果(若干个Iterator)生成新的RDDs。mapPartitions与map类似,但是如果在映射的过程中需要频繁创建额外的对象,使用mapPartitions要比map高效的过。比如,将RDD中的所有数据通过JDBC连接写入数据库,如果使用map函数,可能要为每一个元素都创建一个connection,这样开销很大,如果使用mapPartitions,那么只需要针对每一个分区建立一个connection。SparkC.
2020-07-17 21:55:53 1026
原创 Storm介绍
1.storm概念Storm中涉及的主要概念有:1.storm概念 拓扑(Topologies) 元组(Tuple) Spouts Bolts 2.实例可以看到Storm中各个概念的名字起的非常好,也很形象。拓扑(Topologies)一个Storm拓扑打包了一个实时处理程序的逻辑。一个Storm拓扑跟一个MapReduce的任务(job)是类似的。主要区别是MapReduce任务最终会结束,而拓扑会一直运行(当然直到你杀死它)。一个拓扑是一个...
2020-07-17 16:52:44 219
原创 Spark和Hadoop的比较
Hadoop框架主要模块包括:Hadoop Common Hadoop分布式文件系统 HDFS Hadoop YARN Hadoop MapReduceSpark速度快,可以进行批处理,然而它真正擅长的是流处理,交互式查询和机器学习Hadoop中的MR和Spark的主要区别在于,MapReduce使用持久存储,而Spark使用弹性分布式数据集RDD附录一个关于MapReduce的解释 我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。.
2020-07-17 16:50:58 267
原创 cube的理解,以及维度
1.数据立方体 Cube物理模型 如上图所示,一个常用的3维立方体,包含:时间、地点、产品。假如data cell 中存放的是产量,则我们可以根据时间、地点、产品来确定产量,同时也可以根据时间、地点来确定所有产品的总产量等。 Apache Kylin就将所有(时间、地点、产品)的各种组合实现算出来,data cell 中存放度量,其中每一种组合都称为cuboid。估n维的数据最多有2^n个cuboid,不过Kylin通过设定维度的种类,可以减
2020-07-17 16:50:18 2839
原创 维度、度量、指标概念
事实表,维度,度量,指标之间的关系事实表:每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样维度:说明数据,维度是指可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。指标:衡量数据,指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以关联指标“人口”,其值为具体城市的居民总数。维度和指标的关系:虽然维...
2020-07-17 16:49:25 6949
转载 Spark优化技巧《一》
1.性能调优1.1 分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源?# 在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-submit\--classcn.spark.sparktest.core.WordCountCluster \--num-ex
2020-07-17 10:30:12 292
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人