01-Flink安装部署及入门案例（仅供学习），字节大牛教你手撕大数据开发学习

最新推荐文章于 2024-04-21 20:49:39 发布

小猪佩琪962

最新推荐文章于 2024-04-21 20:49:39 发布

阅读量304

点赞数 3

分类专栏： 2024年程序员学习文章标签：大数据 flink 学习

本文链接：https://blog.csdn.net/2303_79055785/article/details/137835541

版权

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

node1和node2、node3执行

/export/server/flink-ha/bin/taskmanager.sh start # 每台机器执行


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/d100003f20eb4d6ea53b5c5d7b651e1d.png#pic_center)


#### 08-Flink on YARN之运行流程


 在一个企业中，为了最大化的利用集群资源，一般都会在一个集群中同时运行多种类型的Workload，因此 Flink 也支持在 Yarn 集群运行。



> 
> 为什么使用`Flink on Yarn或Spark on Yarn?`
> 
> 
> 


* 1）、Yarn的资源可以按需使用，提高集群的资源利用率
* 2）、Yarn的任务有优先级，根据优先级运行作业
* 3）、基于Yarn调度系统，能够自动化地处理各个角色的 Failover(容错)

 `当应用程序（MR、Spark、Flink）运行在YARN集群上时，可以实现容灾恢复。`


#### 09-Flink on YARN之安装部署


Flink on YARN安装配置，此处考虑高可用HA配置，集群机器安装软件框架示意图：  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/4085371818cf4166824b579e6f522631.png#pic_center)1）、关闭YARN的内存检查（`node1`操作）

yarn-site.xml中添加配置

vim /export/server/hadoop/etc/hadoop/yarn-site.xml


添加如下内容：

yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-check-enabled false


2）、 配置Application最大的尝试次数（`node1`操作）

yarn-site.xml中添加配置

vim /export/server/hadoop/etc/hadoop/yarn-site.xml


添加如下内容：

yarn.resourcemanager.am.max-attempts 4


3）、同步yarn-site.xml配置文件（`node1`操作）

cd /export/server/hadoop/etc/hadoop
scp -r yarn-site.xml root@node2: $P W Dsc p - ry a r n - s i t e . x m l roo t @ n o d e 3 :$ PWD


4）、启动HDFS集群和YARN集群（`node1`操作）

[root@node1 ~]# start-dfs.sh

[root@node1 ~]# start-yarn.sh


5）、添加`HADOOP_CONF_DIR`环境变量(**集群所有机器**）

添加环境变量

vim /etc/profile


添加内容：

export HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop


环境变量生效

source /etc/profile


6）、上传软件及解压（`node1`操作）

[root@node1 ~]# cd /export/software/
[root@node1 software]# rz
上传软件包：flink-1.13.1-bin-scala_2.11.tgz

[root@node1 software]# chmod u+x flink-1.13.1-bin-scala_2.11.tgz
[root@node1 software]# tar -zxf flink-1.13.1-bin-scala_2.11.tgz -C /export/server/

[root@node1 ~]# cd /export/server/
[root@node1 server]# chown -R root:root flink-1.13.1
[root@node1 server]# mv flink-1.13.1 flink-yarn


7）、将Flink依赖Hadoop 框架JAR包上传至`/export/server/flink-yarn/lib`目录  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/8873f05a70be4177826d8e37aecbae3f.png#pic_center)

[root@node1 ~]# cd /export/server/flink-yarn/lib/
[root@node1 lib]# rz
commons-cli-1.4.jar
flink-shaded-hadoop-3-uber-3.1.1.7.2.1.0-327-9.0.jar


8）、配置HA高可用，依赖Zookeeper及重试次数（`node1`操作）

修改配置文件

vim /export/server/flink-yarn/conf/flink-conf.yaml


添加如下内容：

high-availability: zookeeper
high-availability.storageDir: hdfs://node1:8020/flink/yarn-ha/
high-availability.zookeeper.quorum: node1:2181,node2:2181,node3:2181
high-availability.zoo

最低0.47元/天解锁文章

小猪佩琪962

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
01-Flink安装部署及入门案例（仅供学习），字节大牛教你手撕大数据开发学习

使用Flink计算引擎实现离线批处理：词频统计WordCount，TODO：从Flink 1.12开始，流批一体化，API统一，设置执行模式即可。转换二元组：(spark, 1) (flink, 1) (spark, 1)， TODO：Flink Java API中提供元组类Tuple。分组：spark -> [(spark, 1), (spark, 1)] flink -> [(flink, 1)]-yd：分离模式（后台运行，不指定-yd, 终端会卡在提交的页面上）
复制链接

扫一扫