java
拾荒的程序员老头
这个作者很懒,什么都没留下…
展开
-
Java工程师最常使用的20个大数据工具
最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。 在许多情况下,使用SQL数据库用于存储/检索...原创 2019-06-26 22:00:06 · 285 阅读 · 0 评论 -
Hadoop新手学习指导之入门需知
首先我们要了解 hadoop 是什么? Hadoop 能够做什么? Hadoop 的使用场景是什么? Hadoop 和大数据、云计算的关系是什么?如何使用 hadoop ?大数据教程 零基础学习 hadoop, 没有想象的那么困难,也没有想象的那么容易。从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有 Linux 基础,虚拟机化和 java 基础,其实 hadoop 并 没有太大的困难...原创 2019-06-26 22:00:04 · 145 阅读 · 0 评论 -
Spark Streaming的系统架构
传统流处理系统架构 流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收来自数据源的流数据,然后在集群上并行处理数据,最后将处理结果存放至下游系统。 为了处理这些数据,传统的流处理系统被设计为连续算子模型,其工作方式如图 1 所示。 系统包含一系列的工作结点,每组结点上运行一至多个连续算子。对于流数据,每个连续算子(ContinuousOperator)一次处理一条记录,并且将记录...原创 2019-07-08 10:19:58 · 259 阅读 · 0 评论 -
Spark Streaming编程模型
DStream 的操作流程 DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外部输入源来获取,也可以通过现有的 DStream 的 Transformation 操作来获得。 在内部实现上,DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示,每个 RDD 都包含了自己特定时间间隔内的数据流。 图 1DStr...原创 2019-07-08 10:19:59 · 194 阅读 · 0 评论 -
Spark DStream相关操作
与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。 普通的转换操作 普通的转换操作如表 1 所示 表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...原创 2019-07-08 10:20:01 · 483 阅读 · 0 评论 -
Spark Streaming编程实战(开发实例)
本节介绍如何编写 Spark Streaming 应用程序,由简到难讲解使用几个核心概念来解决实际应用问题。 流数据模拟器 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境,首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号,当外部程序通过该端口进行连接并请求数据时,模拟器将定时将指定的文件数据进行随机获取,并发送给外部程序...原创 2019-07-08 10:20:02 · 776 阅读 · 0 评论