Flink之容错机制 有状态流应用中的检查点(checkpoint),其实就是所有任务的状态在某个时间点的一个快照(一份拷贝)。简单来讲,就是一次“存盘”,让我们之前处理数据的进度不要丢掉。在一个流应用程序运行时,Flink 会定期保存检查点,在检查点中会记录每个算子的 id 和状态;如果发生故障,Flink 就会用最近一次成功保存的检查点来恢复应用的状态,重新启动处理流程,就如同“读档”一样。
Hbase之RM读写 将HBASE_CLASSPATH加入环境变量:export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表:create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs,数据按照\t拆分。hive-site.xml文件添加如下配置。数据:最前面准备的stu.txt。分析数据并插入结果表。
Flink之Watermark 处理时间(Processing Time)处理时间的概念非常简单,就是指执行处理操作的机器的系统时间。事件时间(Event Time)事件时间,是指每个事件在对应的设备上发生的时间,也就是数据生成的时间。
Flink之提交任务 s(–slots): 每个 TaskManager 的 slot 数量,默认一个 slot 一个 core,默认每个。taskmanager 的 slot 的个数为 1,有时可以多一些 taskmanager,做冗余。-nm:yarn 的 appName(现在 yarn 的 ui 上的名字)。进入flink Web页面:http://hostname:8081/-tm:每个 taskmanager 的内存(单位 MB)。由于并行度设置的是2,3台机器只有2台是有数据的,如下图。查看集群上运行的job。
idea之Maven项目支持scala 2、File => settings => Plugins => 六角配置按钮 => intall from Disk => 选择刚刚下载的scala插件 => 重启。步骤:File => settings => Plugins => marketplace搜索scala安装。
MR之ReduceJoin MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin,其实ReduceJoin和MapJoin类似,只不过一个是在Map端匹配,一个是在Reduce端匹配,各有各的优势。一、实现思路和MapJoin类似,也是通过读取二个文件,文件的大小可以很大,通过FileInputFormat读取文件,读取到文件后需要获取文件的名称,通过文
MR之MapJoin MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件,其中订单文件记录了商品文件的编号,而商品文件中有商品的中文名称。需求:需要输出一个订单文件,字段为:商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合,再通过订单文件中的商品id,在Map集合中找到商品名称,再实现对应的