Spark
文章平均质量分 84
HanseyLee
这个作者很懒,什么都没留下…
展开
-
一种基于SparkSQL的Hive数据仓库拉链表缓慢变化维(SCD2+SCD1)的示例实现
背景Hive 实现缓慢变化维,没有使用事务表的更新和删除操作(最新版本Hive已经支持,但需要Server/Client做相应配置,Hive实现的事务还有一定的局限性)Hive 自身的SQL使用MapReduce引擎,速度慢,这里使用SparkSQL实现参考:准备基础维度表 base_dim业务字段:id, name, city, st维度表默认字段:sk, scd_upd...原创 2019-08-06 16:43:12 · 1771 阅读 · 0 评论 -
spark架构、部署形式和运行机理(独立集群、YARN集群)
spark 生态架构http://dblab.xmu.edu.cn/blog/spark/Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发, 分布式大数据并行计算框架。在实际应用中,大数据处理主要包括以下三个类型: 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间; ...原创 2019-08-31 12:48:56 · 700 阅读 · 0 评论 -
RDD DataFrame DataSet
RDD DataFrame DataSethttps://databricks.com/wp-content/uploads/2016/06/Unified-Apache-Spark-2.0-API-1.pnghttps://www.infoq.cn/article/three-apache-spark-apis-rdds-dataframes-and-datasetshttps://da...原创 2019-08-31 12:51:30 · 400 阅读 · 0 评论 -
Kafka消息系统介绍及与SparkStreaming结合实践案例
Kafka ABCReference 参考背景源起消息队列Kafka Introduction 简介Topo 拓扑结构Partition 分区Partition Fault-tolerance & Load-balance 容错和负载均衡Producer 消息路由Topic leader and follwersConsumer GroupKaf...原创 2019-08-31 15:01:37 · 403 阅读 · 0 评论