当前搜索:

Spark内部原理之运行原理一

原文来源于:Spark内部原理之运行原理一在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的 Hadoop,优势都非常明显。Spark ...
阅读(102) 评论(0)

Flink1.4 用于外部数据访问的异步IO

原文来源:Flink1.4 用于外部数据访问的异步IO1. 异步IO操作的必要性当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据(例如在 MapFunction 中)通常意味着同步交互:将请求发送到数据库...
阅读(44) 评论(0)

Stream 分布式数据流的轻量级异步快照

原文来源:Stream 分布式数据流的轻量级异步快照1. 概述分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影...
阅读(168) 评论(0)

Flink1.4 窗口触发器与Evictors

原文来源于:Flink1.4 窗口触发器与Evictors1. 窗口触发器触发器(Trigger)决定了窗口(请参阅窗口概述)博文)什么时候准备好被窗口函数处理。每个窗口分配器都带有一个默认的 Trigger。如果默认触发器不能满足你的要求,可以使用 trigger(...) 指定自定义的触发器。...
阅读(50) 评论(0)

Flink1.4 HDFS Connector

原文来源于:Flink1.4 HDFS Connector此连接器提供一个 Sink,将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器,添加以下依赖项:<dependency> <group...
阅读(74) 评论(0)

Hadoop Trash回收站使用指南

我们在删除一个文件时,遇到如下问题,提示我们不能删除文件放回回收站:sudo -uxiaosi hadoop fs -rm -r tmp/data_group/test/employee/employee_salary.txt17/12/06 16:34:48 INFO fs.TrashPolic...
阅读(356) 评论(0)

[算法系列]算法一 地理空间距离计算优化

1. 地理空间距离计算面临的挑战打开美团app,不管是筛选团购还是筛选商家,默认的排序项都是“离我最近”或者“智能排序”(如下图所示):不管是“离我最近”还是“智能排序”,都涉及到计算用户位置与各个团购单子或者商家的距离(注:在智能排序中距离作为一个重要的参数参与排序打分)。以筛选商家为例,北京地...
阅读(537) 评论(0)

[Flink]Flink1.3 Stream指南八 图解事件时间与Watermarks

如果你正在构建实时流处理应用程序,那么事件时间处理是你迟早必须使用的功能之一。因为在现实世界的大多数用例中,消息到达都是无序的,应该有一些方法,通过你建立的系统知道消息可能延迟到达,并且有相应的处理方案。在这篇博文中,我们将看到为什么我们需要事件时间处理,以及我们如何在ApacheFlink中使用...
阅读(690) 评论(0)

[Flink]Flink1.3 Stream指南七 理解事件时间与Watermarks

Flink实现了数据流模型(Dataflow Model)中许多技术。如果想对事件时间(event time)和水位线(watermarks)更详细的了解,请参阅下面的文章:The world beyond batch: Streaming 101The Dataflow Model支持事件时间的...
阅读(756) 评论(0)

[Flink]Flink1.3 Stream指南六 事件时间与处理时间

Flink在数据流中支持几种不同概念的时间。1. 处理时间 Processing TimeProcessing Time(处理时间)是指执行相应操作机器的系统时间(Processing time refers to the system time of the machine that is ex...
阅读(606) 评论(0)

[Flink]Flink1.3 Stream指南五 窗口触发器与驱逐器

1. 窗口触发器触发器(Trigger)确定窗口(由窗口分配器形成)何时准备好被窗口函数处理。每个窗口分配器都带有默认触发器。如果默认触发器不满足你的要求,可以使用trigger(...)指定自定义触发器。触发器接口有五种方法允许触发器对不同的事件做出反应:public abstract Trig...
阅读(667) 评论(0)

[Flink]Flink1.3 Stream指南四 窗口函数

1.4版本:Flink1.4 窗口函数在定义窗口分配器之后,我们需要在每个窗口上指定我们要执行的计算。这是窗口函数的责任,一旦系统确定窗口准备好处理数据,窗口函数就处理每个窗口中的元素。窗口函数可以是ReduceFunction,FoldFunction或WindowFunction其中之一。前两...
阅读(599) 评论(0)

[Flink]Flink1.3 Batch指南二 集群运行

Flink程序可以分布在许多机器的群集上。有两种方式可以将程序发送到集群上运行: (1) 命令行接口 (2) 远程环境1. 命令行接口命令行接口允许你将打包程序(JAR)提交到集群(或单机配置)。详细请参阅[Flink]Flink1.3 指南四 命令行接口。2. 远程环境远程环境允许你直接在集群上...
阅读(312) 评论(0)

[Flink]Flink1.3 Stream指南三 窗口分配器

1.4版本:Flink1.4 窗口概述Windows(窗口)是处理无限数据流的核心。Windows将流分解成有限大小的"桶",在上面我们可以进行计算。本文档重点介绍如何在Flink中处理窗口,以及如何从它提供的功能中获得最大的收益。窗口Flink程序的一般结构如...
阅读(400) 评论(0)

[Flink]Flink1.3 指南五 指定keys

一些转换(例如,join,coGroup,keyBy,groupBy)要求在一组元素上定义一个key。其他转换(Reduce,GroupReduce,Aggregate,Windows)允许在使用这些函数之前对数据进行分组。一个DataSet进行分组如下:DataSet input = // [....
阅读(455) 评论(0)

[Flink]Flink1.3 指南四 命令行接口

Flink提供了一个命令行接口(CLI)用来运行打成JAR包的程序,并且可以控制程序的运行。命令行接口在Flink安装完之后即可拥有,本地单节点或是分布式的部署安装都会有命令行接口。命令行接口启动脚本是 $FLINK_HOME/bin目录下的flink脚本, 默认情况下会连接运行中的Flink m...
阅读(836) 评论(0)

[Flink]Flink1.3 Batch指南一 本地运行

Flink可以在单台机器上运行,甚至可以在单个Java虚拟机中运行。 这运行机制可以方便用户在本地测试和调试Flink程序。本节概述了Flink的本地执行机制。本地环境和执行器(executors)允许你可以在本地Java虚拟机上运行Flink程序,或者是在正在运行程序的Java虚拟机上(with...
阅读(693) 评论(0)

[Flink]Flink1.3 指南二 安装与启动

1. 下载Flink 可以运行在 Linux, Mac OS X和Windows上。为了运行Flink, 唯一的要求是必须在Java 7.x (或者更高版本)上安装。Windows 用户, 请查看 Flink在Windows上的安装指南。你可以使用以下命令检查Java当前运行的版本:java -v...
阅读(1064) 评论(0)

[Hive]Hive使用指南七 空值与NULL

1. NULL(null)值创建一个临时表tmp_null_empty_test,并插入一些NULL数据:CREATE TABLE IF NOT EXISTS tmp_null_empty_test( uid string ) ROW FORMAT DELIMITED FIELDS TERM...
阅读(2982) 评论(0)

[ElasticSearch]ElasticSearch,Kibana安装与启动

1. 检查JDK版本使用如下命令检验JDK版本:xiaosi@Qunar:~$ java -version java version "1.7.0_40" Java(TM) SE Runtime Environment (build 1.7.0_40-b43) Java Hot...
阅读(589) 评论(0)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 159万+
    积分: 2万+
    排名: 372
    博客专栏
    最新评论