steanxy-CSDN博客

Spark Streaming是核心Spark API的扩展，对实时数据流地处理具有可扩展，高吞吐量和容错特性。数据可从很多源获取，如Kafka，Flume，Kinesis或者TCP sockets，并且可以使用复杂算法进行处理，用高层函数表示如map，reduce，join和window 。最后，处理结果可以输出到文件系统，数据库或者实时仪表盘。

2017-06-22 14:28:38 428

翻译 Spark编程指南（三）

共享变量广播变量累加器部署到集群从JavaScala运行Spark作业单元测试

2017-06-18 14:56:13 1172

翻译 Flume1.7.0用户手册（一）

Apache Flume是一个分布式的，可靠的，高可用的系统，用于高效地从多个不同的数据源收集，汇总及迁移大量日志数据到集中的数据储存。

2017-05-29 11:49:46 517

翻译 Hive学习指南（五）

动态分区插入自定义MapReduce脚本Co-Groups

2017-05-26 11:43:42 283

翻译 Spark编程指南（一）

总体来说，每个Spark应用程序都包含一个`驱动程序`，运行了用户的`main`函数并且在集群上执行多种`并行操作`。

2017-05-20 08:17:07 543

翻译 Hive学习指南（一）

Hive是基于Apache Hadoop的数据仓库。Hive能够让大数据的汇总，即时查询和分析变得更加简单。

2017-05-19 23:27:53 459

原创 Python实现钉钉发送报警消息

我司使用钉钉作为内部通讯工具，基本上大家在电脑和手机上都开着，消息可以第一时间查看，报警消息的即时性要求比较高，所以适合用钉钉通知。本文介绍如何用Python实现钉钉发送报警消息。

2017-05-13 22:10:26 20944 7

Logstash是一个具有实时管线能力的开源数据收集引擎。在ELK Stack中，通常选择更轻量级的Filebeat收集日志，然后将日志输出到Logstash进行加工处理，再将处理后的日志输出到指定的目标（ElasticSearch，Kafka等）当中。 Logstash事件的处理管线是`inputs → filters → outputs`，三个阶段都可以自定义插件，本文主要介绍如何开发自定义需求最多的filter

2017-05-07 17:39:14 992

翻译 Scala单例对象

不属于类单个实例的方法和值属于单例对象，用关键字object而不用calss来标记。

2017-05-07 16:38:46 676

翻译 Scala模式匹配

模式匹配是根据模式检查值的机制。一个成功的匹配可以将值分解成其组成部分。它Java `switch`语句的一个更强大的版本，也可用于替代一系列if/else语句。

2017-05-07 15:44:19 317

翻译 Scala Case类

Case类适用于模型化不可变数据。

2017-05-05 13:17:18 412

翻译 Scala Currying

方法可以定义多个参数列表。当调用方法时传递的参数列表少了，则将会产生一个函数，缺失的参数列表会作为这个函数的参数。

2017-05-05 13:09:33 277

翻译 Scala嵌套方法

在Scala中是可以定义嵌套函数的。

2017-05-05 12:49:29 684

翻译 Scala高阶函数

Scala允许定义高阶函数。高阶函数以函数作为参数或者返回函数。

2017-05-04 22:49:29 431

翻译 Scala匿名函数语法

Scala提供了相对轻量级的语法来定义匿名函数。

2017-05-04 22:43:28 754

翻译 Scala使用Mixins进行类组合

Mixins是用于进行类组合的特征。

2017-05-04 14:09:05 465

翻译 Scala特征

特征用于在类之间共享接口和字段。类似于Java 8的接口。类和对象可以扩展特征，但是特征不能实例化，因此也没有参数。

2017-05-03 22:24:23 486

翻译 Scala类

Scala中的类用于创建对象。类中可以包含方法，值，变量，类型，对象，特征以及类，统称为成员。

2017-05-03 14:20:47 390

翻译 Scala统一的类型

Scala中，所有值都是类的实例，包括数值和函数。

2017-05-02 20:33:57 402

翻译 Scala基础

Scala基础。

2017-04-30 14:33:01 293

翻译 Scala介绍

Scala是一种现代多范式编程语言，旨在以简介，优雅和类型安全的方式来表达公共编程模式。它集成了面向对象和函数式编程的特性。

2017-04-30 10:49:44 467

翻译 Scala快速开始

Scala快速开始。

2017-04-24 20:03:26 414

翻译 Spark 2.1.0官方文档翻译

Apache Spark是一个快速的，通用的集群计算系统。在Java，Scala，Python和R语言中提供了高层API，并提供一个支持一般图形计算的优化引擎。Spark支持一个丰富的高层工具集，包括Spark SQL用于SQL和结构化数据处理，MLLib用于机器学习，GraphX用于图处理和Spark Streaming。

2017-04-18 19:15:47 2339

翻译 Spark快速开始

本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API（使用Python或Scala），然后展示如何用Java，Scala和Python来写Spark引用程序。

2017-04-18 19:13:29 507

steanxy的专栏

翻译 Scala泛型类

翻译 Scala Extractor Objects

翻译 Scala正则表达式模式

翻译 Spark Streaming编程指南（四）

翻译 Spark Streaming编程指南（三）

翻译 Spark Streaming + Kafka集成指南

翻译 Spark Streaming编程指南（二）

翻译 Spark Streaming编程指南（一）