背景
- 一直以Spark为主做Batch和Streaming的开发,之前在上层做过关于Flink的业务处理,现在重新使用记录一些开始以及之后使用过程中的实操与具体开发的过程;
开端
- 之前刚开始做Flink的时候有一些小笔记,不过目前来看可能作用并不是很大,不过就是很多基础性的东西,刚开始使用的话可以参考,目前的过程都是依照业务流程,按照Streaming的思想来做数据流转和处理,过程遇到问题再来依据Flink的思想来解决问题;
任务部署
- 运行模式有很多,本地模式就不赘述了,目前最多的还是集成Yarn-Cluster来进行任务调度;
- 关于一个简单的任务启动;
- 具体任务参数可以直接在linux客户端flink -h进行观察;
#!/bin/bash
flink run -m yarn-cluster \
/opt/cloudera/parcels/FLINK/lib/flink/examples/streaming/WordCount.jar \
--input hdfs://nameservice-ha/xxxx/2020/11/flinkdemo/data \
--output hdfs://nameservice-ha/xxxx/2020/11/flinkdemo/result/result1
- 注意点
- Yarn与Hadoop集群的完备;
- Flink中集成Hadoop
- 输入为目录
- 输出为一个新的目录
后续更进
目录
4. 输出为一个新的目录
后续更进
- 后续关于开发过程会进行一部分的总结与博客中;