2020年07月_sinat_32176267

07月 04月

原创 mapPartition

mapPartitions函数会对每个分区依次调用分区函数处理，然后将处理的结果(若干个Iterator)生成新的RDDs。mapPartitions与map类似，但是如果在映射的过程中需要频繁创建额外的对象，使用mapPartitions要比map高效的过。比如，将RDD中的所有数据通过JDBC连接写入数据库，如果使用map函数，可能要为每一个元素都创建一个connection，这样开销很大，如果使用mapPartitions，那么只需要针对每一个分区建立一个connection。SparkC.

2020-07-17 21:55:53 1026

原创 Storm介绍

1.storm概念Storm中涉及的主要概念有：1.storm概念拓扑(Topologies) 元组(Tuple) Spouts Bolts 2.实例可以看到Storm中各个概念的名字起的非常好，也很形象。拓扑(Topologies)一个Storm拓扑打包了一个实时处理程序的逻辑。一个Storm拓扑跟一个MapReduce的任务(job)是类似的。主要区别是MapReduce任务最终会结束，而拓扑会一直运行（当然直到你杀死它)。一个拓扑是一个...

2020-07-17 16:52:44 219

原创 Spark和Hadoop的比较

Hadoop框架主要模块包括：Hadoop Common Hadoop分布式文件系统 HDFS Hadoop YARN Hadoop MapReduceSpark速度快，可以进行批处理，然而它真正擅长的是流处理，交互式查询和机器学习Hadoop中的MR和Spark的主要区别在于，MapReduce使用持久存储，而Spark使用弹性分布式数据集RDD附录一个关于MapReduce的解释我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。.

2020-07-17 16:50:58 267

原创 cube的理解，以及维度

1.数据立方体　　　　　　　　　　　　　　　　　　　　　　　　Cube物理模型　　如上图所示，一个常用的3维立方体，包含：时间、地点、产品。假如data cell 中存放的是产量，则我们可以根据时间、地点、产品来确定产量，同时也可以根据时间、地点来确定所有产品的总产量等。　　Apache Kylin就将所有（时间、地点、产品）的各种组合实现算出来，data cell 中存放度量，其中每一种组合都称为cuboid。估n维的数据最多有2^n个cuboid，不过Kylin通过设定维度的种类，可以减

2020-07-17 16:50:18 2839

原创维度、度量、指标概念

事实表，维度，度量，指标之间的关系事实表：每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据，如销售商品所产生的数据，与软件中实际表概念一样维度：说明数据，维度是指可指定不同值的对象的描述性属性或特征。例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。指标：衡量数据，指标是指可以按总数或比值衡量的具体维度元素。例如，维度“城市”可以关联指标“人口”，其值为具体城市的居民总数。维度和指标的关系：虽然维...

2020-07-17 16:49:25 6949

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sinat_32176267的博客

原创 mapPartition

原创 Storm介绍

原创 Spark和Hadoop的比较

原创 cube的理解，以及维度

原创维度、度量、指标概念

转载 Spark优化技巧《一》

Android开发艺术探索-书中代码

Butterknife

空空如也

原创 mapPartition

原创 Storm介绍

原创 Spark和Hadoop的比较

原创 cube的理解，以及维度

原创 维度、度量、指标概念

转载 Spark优化技巧《一》

Android开发艺术探索-书中代码

Butterknife

空空如也

原创维度、度量、指标概念