不清不慎的博客

java大数据开发工程师、数据挖掘、人工智能、区块链兴趣爱好者。 Github地址：https://github.com/ljcan

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Storm批处理事务详解

1.为什么需要批处理事务在流式计算中，我们经常需要保证 exactly-once 语义。Storm的一个Spout在发送数据后如果处理失败，由于其ack/fail机制，我们可以得知是那一批数据处理失败，从而重新发送数据进行处理，但是这时会有一个问题，有可能会重复处理了同一批数据，尤其在一些要求比较高的场景（比如支付场景），这样会造成严重的后果，因此为了确保 exactly-once 语义，保证数...

2018-10-25 21:56:49 887

原创 Flink DataStream API指南【翻译】

1.什么是DataStream？ DataStream是Flink中可以在数据流的基础上实现各种transformation操作的程序，（比如filtering,updating state,defining windows，aggregating）。这些数据流最初的来源可以有很多种，比如消息队列，socket流，文件等，计算的结果通过sinks途径返回，你也可以写这些数据到一个文件或者标准的输出...

2018-10-14 17:22:34 4101

原创 Linux命令大全

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 cat /proc/cpuinfo 显示CPU info的信息 cat /proc/meminfo 校验内存使用 cat /proc/version 显示内核的版本 date 显示系统日期 cal 2007 显示2007年的日历表 date 04121700200...

2018-10-07 10:37:25 592

原创 Spark Streaming执行流程源码剖析

一、StreamingContext初始化过程在Spark Streaming中使用StreamingContext来操作DStream，这也好比Spark Core中SparkContext对于RDD，DStream可以说是RDD的又一层封装，作用于DStream上的Operation可以大概分为以下两类： Transformation转换操作。 Output表示输出结果，主要有print，...

2018-10-06 11:25:22 2212

原创 Spark存储机制源码剖析

一、Shuffle结果的写入和读取通过之前的文章Spark源码解读之Shuffle原理剖析与源码分析我们知道，一个Shuffle操作被DAGScheduler划分为两个stage，第一个stage是ShuffleMapTask，第二个是ResultTask。ShuffleMapTask会产生临时计算结果，这些数据会被ResultTask作为输入而读取。那么ShuffleMapTask的计算结果...

2018-10-02 19:55:05 947