蜗牛爱上星星

一只贪玩的蜗牛

Stream Processing:滑动窗口的聚集(aggregation)操作的优化算法讲解

在实时计算的流处理中,因为数据是以流的形式不断流入实时处理,把流数据保留到内存中以待以后再处理不是一个明智的选择,一般情况下是采用窗口window来缓存最近的一部分流数据,针对这部分数据处理得到结果。有多中window,包括tumble window,session window,sliding ...

2019-01-18 22:54:05

阅读数 250

评论数 0

Stream Processing:Apache Flink快照(snapshot)原理

本文将要讲解的是Apache Flink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。 本文将同下面几个方面讲解: 什么是快照?为什么需要快照? 跟其他系统的快照相比...

2019-01-07 20:29:57

阅读数 356

评论数 0

Stream Processing: Apache Kafka的Exactly-once的定义 原理和实现

2018年,Apache Kafka以一种特殊的设计和方法实现了强语义的exactly-once和事务性。热泪盈眶啊! 这篇文章将讲解kafka中exactly-once和事务操作的原理,具体为(1)exactly-once在kafka中的定义。(2)数据生产者的幂等操作和kafka的事务性支持...

2018-10-03 15:17:27

阅读数 1524

评论数 1

什么是Kafka Global Table (GlobalKTable)

在kafka中,有三个重要的抽象,分别为KStream,KTable和GlobalKTable。本文主要讲解GlobalTable。 Global table存在的理由 Kafka根据数据的key来分区,一般情况下相同的key会存入相同的分区中,如果使用两个KTable来进行join操作,那么jo...

2018-09-26 19:32:27

阅读数 345

评论数 0

从安装Kafka服务到运行WordCount程序

之所以写这篇文章,是因为Kafka初学的同学在了解了Kafka的基本原理之后,希望在自己的机器上面运行最简单的wordCount的时候,从开始安装Kafka到找到合适的example源码最后到成功运行,这个过程会花费几个小时甚至一天的时间。主要是现今网上Kafka的博客中偏向原理分析的占大多数,讲...

2018-09-21 23:21:15

阅读数 174

评论数 0

几种数据获取方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义的。在这里给大家推荐一些能够用上数据获取方式,有了这些资...

2017-08-10 17:38:51

阅读数 676

评论数 0

Hadoop生态组件-HIVE学习

安装步骤: 1、安装JDK,配置JAVA_HOME,版本为1.8.0; 2、安装Hadoop(免编译版),版本为2.8.0,配置HADOOP_HOME环境变量。 如果要进行伪分布安装,需要安装ssh已经配置hadoop的配置文件。同时格式化dfs文件系统。 安装参考地址3、安装hive(免...

2017-07-22 23:55:57

阅读数 400

评论数 0

基于Spark的移动用户主要活动地点的挖掘算法实现以及JavaEE技术整合

本算法基于Spark计算引擎,能够从海量的手机基站数据中挖据出用户的主要活动地点,比如工作地点和居住地点。实现好挖掘算法之后,通过JavaEE来整合上面的算法,让用户能够通过简单的Web UI就能够操作使用该算法,同时为用户提供了可视化数据的功能。

2017-06-07 10:36:06

阅读数 1622

评论数 7

GPS轨迹数据集免费下载资源整理

本文主要是整理了GPS轨迹数据集免费资源库,从这些库中能够免费下载到GPS数据,同时还整理出了这些数据的格式,数据集的简单描述等等。如果你发现更好的相关数据资源,欢迎共享 :)1. GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到...

2017-02-27 23:35:32

阅读数 18281

评论数 25

理解spark闭包

当用户提交了一个用scala语言写的Spark程序,Spark框架会调用哪些组件呢?首先,这个Spark程序就是一个“Application”,程序里面的mian函数就是下图所示的“Driver Program”, 前面已经讲到它的作用,只是,dirver程序的可能运行在客户端,也有可有可能运行在...

2017-02-24 14:27:09

阅读数 2997

评论数 3

Spark组件和术语定义

Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Driver:Spark中的Driver即运行上述Applicat...

2017-02-24 13:59:10

阅读数 635

评论数 0

RDD(Resilient Distributed Datasets 弹性分布式数据集)

RDD是spark计算框架的核心,spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍,最好的资料就是那篇专门介绍RDD的论文了,已经有中文翻译。使用scala编写spark应用,给人的感觉就像是在使用scala编写普通的scala程序,感觉spark编程和scala编程...

2017-02-24 13:39:18

阅读数 1740

评论数 0

Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)

spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程...

2017-02-23 17:33:09

阅读数 3755

评论数 0

Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)

本文使用了两种方法进行spark 的top k词频查询,第S一种方法在很多博客中都介绍到了的,但是这种方法有一个问题,那就是在大数据的情况下效率不高,因为它是通过sparkAPI中的top方法来计算的,这个过程会引起一个耗时的“洗牌“过程;第二种方法在其他博客中基本没有看到,使用的是堆的方式,具体...

2017-02-08 13:40:34

阅读数 2350

评论数 0

Hermes实时检索分析平台

一、序言 随着TDW的发展,公司在大数据离线分析方面已经具备了行业领先的能力。但是,很多应用场景往往要求在数秒内完成对几亿、几十亿甚至几百上千亿的数据分析,从而达到不影响用户体验的目的。如何能够及时有效的获取分析结果提高工作效率,这是许多分析人员在面对大数据所不得不面临的问题。要满足这样的需...

2017-02-02 10:49:18

阅读数 865

评论数 0

Spark算子汇总和理解(详细)

Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法。通过对这些方法的组合,编程人员就可以写出自己想要的功能。说白了spark编程就是对spark算子的使用。所以熟悉spark算子是spark编程的必修课。这篇文章是本人对于spark算子的汇总和理解。...

2017-01-12 13:46:50

阅读数 9857

评论数 2

Big Data Ecosystem and Components

Apache Spark Components Spark Core Component - special data structure RDD - basic I/O functionalities - jobs and task scheduling and monitoring ...

2016-12-30 09:49:52

阅读数 710

评论数 0

Spark Learning

Spark Spark SQL Spark Streaming MLib(mechine learing) GraphX(graph) cassandra HBase Mesos Hadoop submit the spark job. mvn clean && mvn compi...

2016-12-30 09:48:11

阅读数 787

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭