自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 流式处理的王者-10分钟了解spark streaming

1、流式处理的王者:spark streamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如...

2020-02-11 19:37:47 308

原创 数据共享-spark中共享变量深度解析

1、共享变量的作用?当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:广播变量(broadcast variables)和累加器(accumula...

2020-02-11 19:35:34 621

原创 kafka不为人知的一面-Kafka streams

kafka不为人知的一面-Kafka streams1、为什么要有kafka stream当前已经有非常多的流式处理系统,最知名且应用最多的开源流式处理系统有Spark Streaming和Apache Storm。Apache Storm发展多年,应用广泛,提供记录级别的处理能力,当前也支持SQL on Stream。而Spark Streaming基于Apache Spark,可...

2020-02-11 19:33:51 417

原创 大数据在项目中的实际应用:数据仓库,数据埋点 | 实战

相信大家之前也学习了很多关于大数据的基本知识和专项知识,今天来给大家介绍一下这些大数据知识是如何应用在一个真正的电商项目中的。数据仓库概念项目需求及架构设计项目需求分析 项目框架:技术选型 项目框架:系统数据流程设计 项目框架:框架版本选型 项目框架:服务器选型 项目框架:集...

2020-02-11 19:23:21 771

原创 hive数据仓库详解(推荐)

【公开课】Hive数据仓库详解(百数云课)【精选】交流qq群:1022901775,获取课件、代码,技术交流,问题反馈;为方便学习,请关注"百数云课"官方公众号。...

2020-02-11 19:10:34 315

原创 10分钟搞懂kafka底层原理

1、背景引入:消息队列是什么现代技术的实时更新,已经实时性的要求越来越高,因此对技术的要求也是越来越高,那么在庞大的数据的传输过程中怎么能保证数据的快速传递呢,由此,消息队列产生了。“消息”是在两台计算机间传送的数据单位。消息可以非常简单,例如只包含文本字符串;也可以更复杂,可能包含嵌入对象。消息被发送到队列中。“消息队列”是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它...

2020-02-11 19:06:11 3493 2

原创 多样 | spark数据源特点

1、背景引入:spark SQL的数据源Spark SQL是Spark的一个模块,用于结构化数据的处理。使用Spark SQL的方式有2种,可以通过SQL或者Dataset API,这两种使用方式在本文都会涉及。其中,通过SQL接口使用的方法具体又可分为3种:在程序中执行使用命令行Jdbc/ODBCSpark关于分布式数据集的抽象原本是RDD,Dataset是其升级版本。Dat...

2020-02-11 19:01:09 661

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除