我发烧了-CSDN博客

原创流式处理的王者-10分钟了解spark streaming

1、流式处理的王者：spark streamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如...

2020-02-11 19:37:47 308

原创数据共享-spark中共享变量深度解析

1、共享变量的作用？当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候需要在多个任务之间共享变量，或者在任务（Task）和任务控制节点（Driver Program）之间共享变量。为了满足这种需求，Spark提供了两种类型的变量：广播变量（broadcast variables）和累加器（accumula...

2020-02-11 19:35:34 621

原创 kafka不为人知的一面-Kafka streams

kafka不为人知的一面-Kafka streams1、为什么要有kafka stream当前已经有非常多的流式处理系统，最知名且应用最多的开源流式处理系统有Spark Streaming和Apache Storm。Apache Storm发展多年，应用广泛，提供记录级别的处理能力，当前也支持SQL on Stream。而Spark Streaming基于Apache Spark，可...

2020-02-11 19:33:51 417

原创大数据在项目中的实际应用：数据仓库，数据埋点 | 实战

相信大家之前也学习了很多关于大数据的基本知识和专项知识，今天来给大家介绍一下这些大数据知识是如何应用在一个真正的电商项目中的。数据仓库概念项目需求及架构设计项目需求分析项目框架：技术选型项目框架：系统数据流程设计项目框架：框架版本选型项目框架：服务器选型项目框架：集...

2020-02-11 19:23:21 771

原创 hive数据仓库详解（推荐）

【公开课】Hive数据仓库详解（百数云课）【精选】交流qq群：1022901775，获取课件、代码，技术交流，问题反馈；为方便学习，请关注"百数云课"官方公众号。...

2020-02-11 19:10:34 315

原创 10分钟搞懂kafka底层原理

1、背景引入：消息队列是什么现代技术的实时更新，已经实时性的要求越来越高，因此对技术的要求也是越来越高，那么在庞大的数据的传输过程中怎么能保证数据的快速传递呢，由此，消息队列产生了。“消息”是在两台计算机间传送的数据单位。消息可以非常简单，例如只包含文本字符串；也可以更复杂，可能包含嵌入对象。消息被发送到队列中。“消息队列”是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它...

2020-02-11 19:06:11 3493 2

原创多样 | spark数据源特点

1、背景引入：spark SQL的数据源Spark SQL是Spark的一个模块，用于结构化数据的处理。使用Spark SQL的方式有2种，可以通过SQL或者Dataset API，这两种使用方式在本文都会涉及。其中，通过SQL接口使用的方法具体又可分为3种：在程序中执行使用命令行Jdbc/ODBCSpark关于分布式数据集的抽象原本是RDD，Dataset是其升级版本。Dat...

2020-02-11 19:01:09 661

baishuyk的博客