- 博客(5)
- 资源 (15)
- 问答 (2)
- 收藏
- 关注
原创 Storm批处理事务详解
1.为什么需要批处理事务 在流式计算中,我们经常需要保证 exactly-once 语义。Storm的一个Spout在发送数据后如果处理失败,由于其ack/fail机制,我们可以得知是那一批数据处理失败,从而重新发送数据进行处理,但是这时会有一个问题,有可能会重复处理了同一批数据,尤其在一些要求比较高的场景(比如支付场景),这样会造成严重的后果,因此为了确保 exactly-once 语义,保证数...
2018-10-25 21:56:49 887
原创 Flink DataStream API指南【翻译】
1.什么是DataStream? DataStream是Flink中可以在数据流的基础上实现各种transformation操作的程序,(比如filtering,updating state,defining windows,aggregating)。这些数据流最初的来源可以有很多种,比如消息队列,socket流,文件等,计算的结果通过sinks途径返回,你也可以写这些数据到一个文件或者标准的输出...
2018-10-14 17:22:34 4101
原创 Linux命令大全
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 cat /proc/cpuinfo 显示CPU info的信息 cat /proc/meminfo 校验内存使用 cat /proc/version 显示内核的版本 date 显示系统日期 cal 2007 显示2007年的日历表 date 04121700200...
2018-10-07 10:37:25 592
原创 Spark Streaming执行流程源码剖析
一、StreamingContext初始化过程 在Spark Streaming中使用StreamingContext来操作DStream,这也好比Spark Core中SparkContext对于RDD,DStream可以说是RDD的又一层封装,作用于DStream上的Operation可以大概分为以下两类: Transformation转换操作。 Output表示输出结果,主要有print,...
2018-10-06 11:25:22 2212
原创 Spark存储机制源码剖析
一、Shuffle结果的写入和读取 通过之前的文章Spark源码解读之Shuffle原理剖析与源码分析我们知道,一个Shuffle操作被DAGScheduler划分为两个stage,第一个stage是ShuffleMapTask,第二个是ResultTask。ShuffleMapTask会产生临时计算结果,这些数据会被ResultTask作为输入而读取。 那么ShuffleMapTask的计算结果...
2018-10-02 19:55:05 947
linux telnet完整rpm安装包
2018-04-15
Struts2学习笔记
2017-11-04
安装的vmware10没有虚拟网卡
2017-11-03
vmware12安装时失败,找不到指定文件。
2017-11-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人