- 博客(35)
- 收藏
- 关注
翻译 Scala Extractor Objects
Extractor Object是有unapply方法的对象。apply方法像是构造函数,可以带参数以及创建对象,unapply方法根据对象尝试返回其参数。常用语模式匹配和partial functions。
2017-07-11 22:30:13 375
翻译 Spark Streaming编程指南(三)
DStreams转换TransformationDStreams输出操作DataFrame和SQL操作MLib操作
2017-07-10 22:24:43 416
翻译 Spark Streaming + Kafka集成指南
本文适用于Kafka broker 0.8.2.1及更高版本。这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 - 老方法使用Receiver和Kafka的高层API,新方法不适用Receiver。
2017-06-28 19:56:48 584
翻译 Spark Streaming编程指南(二)
连接初始化StreamingContext离散流DStreams输入DStreams和Receivers
2017-06-27 23:19:25 521
翻译 Spark Streaming编程指南(一)
Spark Streaming是核心Spark API的扩展,对实时数据流地处理具有可扩展,高吞吐量和容错特性。数据可从很多源获取,如Kafka,Flume,Kinesis或者TCP sockets,并且可以使用复杂算法进行处理,用高层函数表示如map,reduce,join和window 。最后,处理结果可以输出到文件系统,数据库或者实时仪表盘。
2017-06-22 14:28:38 420
翻译 Flume1.7.0用户手册(一)
Apache Flume是一个分布式的,可靠的,高可用的系统,用于高效地从多个不同的数据源收集,汇总及迁移大量日志数据到集中的数据储存。
2017-05-29 11:49:46 506
原创 Python实现钉钉发送报警消息
我司使用钉钉作为内部通讯工具,基本上大家在电脑和手机上都开着,消息可以第一时间查看,报警消息的即时性要求比较高,所以适合用钉钉通知。 本文介绍如何用Python实现钉钉发送报警消息。
2017-05-13 22:10:26 20909 7
原创 Logstash filter插件开发
Logstash是一个具有实时管线能力的开源数据收集引擎。在ELK Stack中,通常选择更轻量级的Filebeat收集日志,然后将日志输出到Logstash进行加工处理,再将处理后的日志输出到指定的目标(ElasticSearch,Kafka等)当中。 Logstash事件的处理管线是`inputs → filters → outputs`,三个阶段都可以自定义插件,本文主要介绍如何开发自定义需求最多的filter
2017-05-07 17:39:14 979
翻译 Scala模式匹配
模式匹配是根据模式检查值的机制。一个成功的匹配可以将值分解成其组成部分。它Java `switch`语句的一个更强大的版本,也可用于替代一系列if/else语句。
2017-05-07 15:44:19 308
翻译 Spark 2.1.0官方文档翻译
Apache Spark是一个快速的,通用的集群计算系统。在Java,Scala,Python和R语言中提供了高层API,并提供一个支持一般图形计算的优化引擎。Spark支持一个丰富的高层工具集,包括Spark SQL用于SQL和结构化数据处理,MLLib用于机器学习,GraphX用于图处理和Spark Streaming。
2017-04-18 19:15:47 2318
翻译 Spark快速开始
本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API(使用Python或Scala),然后展示如何用Java,Scala和Python来写Spark引用程序。
2017-04-18 19:13:29 497
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人