flink集群搭建

最新推荐文章于 2024-08-13 17:07:52 发布
海阔天空&沫语
最新推荐文章于 2024-08-13 17:07:52 发布
阅读量269
点赞数
分类专栏：大数据/架构
本文链接：https://blog.csdn.net/healthsun/article/details/90147023
版权
大数据/架构专栏收录该内容
20 篇文章 3 订阅
订阅专栏
工作预研中记录的工作笔记供大家指导借鉴。flink集群的搭建和相关hadoop集群安装步骤和运行脚本。直接上代码。
安装hadoop集群
1、解压缩hadoop
tar zxvf hadoop-2.7.7.tar.gz -C /usr/

2、在 nd-00 ~ nd-02 配置环境变量
vim /etc/profile
export HADOOP_HOME=/usr/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:${JAVA_PATH}:${ZOOKEEPER}/bin:${ZOOKEEPER}/conf:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

source /etc/profile

3、Hadoop配置
以下操作均在Master节点，配置完后，使用scp命令，将配置文件拷贝到两个Slave节点即可。
   切换到/usr/hadoop-2.7.7/etc/hadoop/目录下，修改如下文件：
   
 3.1 hadoop-env.sh

 cd /usr/hadoop-2.7.7/etc/hadoop/
 vim hadoop-env.sh
 在文件最后，新增如下配置
 export JAVA_HOME=/usr/java/jdk1.8.0_201
 export HADOOP_PREFIX=/usr/hadoop-2.7.7
 
 3.2 yarn-env.sh
 在文件最后，新增如下配置
 export JAVA_HOME=/usr/java/jdk1.8.0_201
 
 3.3 core-site.xml
 创建tmp目录：#mkdir -p /usr/hadoop-2.7.7/tmp
 <configuration>
  <property>
   <name>fs.defaultFS</name>
   <value>hdfs://nd-00:9000</value>
  </property>
  <property>
   <name>hadoop.tmp.dir</name>
   <value>/mnt/hadoop/tmp</value>
  </property>
 </configuration>
 
 3.4 hdfs-site.xml
 <configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/mnt/hadoop/dfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/mnt/hadoop/dfs/data</value>
  </property>
</configuration>

 3.5 mapred-site.xml
 <configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property> 
    <name>mapreduce.jobhistory.address</name> 
    <value>nd-00:10020</value> 
  </property> 
  <property> 
    <name>mapreduce.jobhistory.webapp.address</name> 
    <value>nd-00:19888</value> 
  </property> 
</configuration>

 3.6 yarn-site.xml
 <configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value> 
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  </property>
  <property>
    <name>yarn.resourcemanager.address</name> 
    <value>nd-00:8032</value> 
  </property> 
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>nd-00:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>nd-00:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>nd-00:8033</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name> 
    <value>nd-00:8088</value>
  </property>
  
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4192</value>
    <discription>每个节点可用内存,单位MB</discription>
</property>  
  
<property>  
    <name>yarn.scheduler.minimum-allocation-mb</name>  
    <value>1024</value>  
    <discription>单个任务可申请最少内存，默认1024MB</discription>  
</property>  
  
<property>  
    <name>yarn.scheduler.maximum-allocation-mb</name>  
    <value>4192</value>  
    <discription>单个任务可申请最大内存，默认8192MB</discription>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>1024</value>
<description>每个Map任务的物理内存限制</description>
</property>

<property>
<name>mapreduce.reduce.memory.mb</name>
<value>1024</value>
<description>每个Reduce任务的物理内存限制</description>
</property>

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>

<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.5</value>
<description>把拟内存和物理内存比例增大</description>
</property>
</configuration>

 3.7 slaves
 nd-00
 nd-01
 nd-02

 3.8 拷贝配置文件到两个Slave节点
 在Master节点，执行如下命令：   
   # scp -r /usr/hadoop-2.7.7/etc/hadoop/ root@nd-01:/usr/hadoop-2.7.7/etc/
   # scp -r /usr/hadoop-2.7.7/etc/hadoop/ root@nd-02:/usr/hadoop-2.7.7/etc/
   
4、Hadoop使用
 4.1 格式化NameNode
 Master节点上，执行如下命令
    #hdfs namenode -format
 
 4.2 启动HDFS（NameNode、DataNode）
 Master节点上，执行如下命令
    #start-dfs.sh
    使用jps命令，分别在Master以及两个Slave上查看Java进程
    可以在Master上看到如下进程：
  34225 SecondaryNameNode
  33922 NameNode
  34028 DataNode
  49534 Jps
  
 在两个Slave上，看到如下进程：
  34028 DataNode
  49534 Jps
  
 4.3 启动 Yarn（ResourceManager 、NodeManager）
 Master节点上，执行如下命令
    #start-yarn.sh
    使用jps命令，分别在Master以及两个Slave上查看Java进程
 可以在Master上看到如下进程：
 34225 SecondaryNameNode
 33922 NameNode
 34632 NodeManager
 34523 ResourceManager
 34028 DataNode
 49534 Jps
 
 在两个Slave上，看到如下进程：
 34632 NodeManager
 34028 DataNode
 49534 Jps
 
 4.4 通过浏览器查看HDFS信息
 浏览器中，输入http://192.168.139.130:50070
 
 4.5 通过浏览器查看Yarn信息
  浏览器中，输入http://192.168.139.130:8088
  
 4.6 停止Yarn及HDFS
      #stop-yarn.sh
      #stop-dfs.sh
   
   
   
常见错误
virtual memory exhausted: Cannot allocate memory
当安装虚拟机时系统时没有设置swap大小或设置内存太小，编译程序会出现virtual memory exhausted: Cannot allocate memory的问题，可以用swap扩展内存的方法。

一、问题
       当安装虚拟机时系统时没有设置swap大小或设置内存太小，编译程序会出现virtual memory exhausted: Cannot allocate memory的问题，可以用swap扩展内存的方法。

二、解决方法
在执行free -m的是时候提示Cannot allocate memory:

（swap文件可以放在自己喜欢的位置如/var/swap）

[root@Byrd byrd]# free -m
             total       used       free     shared    buffers     cached
Mem:           512        108        403          0          0         28
-/+ buffers/cache:         79        432
Swap:            0          0          0
[root@Byrd ~]# mkdir /opt/images/
[root@Byrd ~]# rm -rf /opt/images/swap
[root@Byrd ~]# dd if=/dev/zero of=/opt/images/swap bs=1024 count=2048000
2048000+0 records in
2048000+0 records out
2097152000 bytes (2.1 GB) copied, 82.7509 s, 25.3 MB/s
[root@Byrd ~]# mkswap /opt/images/swap
mkswap: /opt/images/swap: warning: don't erase bootbits sectors
        on whole disk. Use -f to force.
Setting up swapspace version 1, size = 2047996 KiB
no label, UUID=59daeabb-d0c5-46b6-bf52-465e6b05eb0b
[root@hz mnt]# swapon /opt/images/swap
[root@hz mnt]# free -m
             total       used       free     shared    buffers     cached
Mem:           488        481          7          0          6        417
-/+ buffers/cache:         57        431
Swap:          999          0        999
内存太小，增加内存可以解决。
使用完毕后可以关掉swap：

[root@hz mnt]# swapoff swap
[root@hz mnt]# rm -f /opt/images/swap
swap文件也可以不删除，留着以后使用，关键是你的虚拟机硬盘够用。

原文：https://blog.csdn.net/taiyang1987912/article/details/41695895 


安装flink集群
1、下载flink
wget http://mirror.bit.edu.cn/apache/flink/flink-1.7.2/flink-1.7.2-bin-hadoop27-scala_2.11.tgz
2、解压缩
tar zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C /usr/local/
3、配置环境变量 /etc/profile
export FLINK_HOME=/usr/local/flink-1.7.2
export PATH=$PATH:${JAVA_PATH}:${ZOOKEEPER}/bin:${ZOOKEEPER}/conf:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${FLINK_HOME}/bin
source /etc/profile
4、配置flink
cd /usr/local/flink-1.7.2/conf/
 4.1 配置文件说明 这里面需要我们配置的有：slaves和flink-conf.yaml文件，这里面masters文件是用来配置HA的，只要我们不配置HA的话，就不需要配置masters文件（flink也是master/slave结构，但是对于此时master的选择是执行启动脚本的机器为master）。但是slave需要我们配置，配置对应的主机名即可（伪分布式和分布式的区别也就是实际上slave节点的个数，以及分布式在多个节点上而已）。接下来需要我们配置的就是flink-conf.yaml。
 
 4.2 选择master节点修改flink-conf.yaml配置文件，先配置yarn版本
 # 设置jobmanager.rpc.address 配置项为该节点的IP 或者主机名
 jobmanager.rpc.address: 192.168.139.130
 state.backend: filesystem

# Directory for checkpoints filesystem, when using any of the default bundled
# state backends.
#
 state.checkpoints.dir: hdfs://namenode-host:9000/flink-checkpoints


 4.3 配置slaves
 [root@hadoop2 flink-1.7.2]# vi conf/slaves
 192.168.139.131
 192.168.139.132
 
 4.4 启动或者flink集群
 bin/start-cluster.sh
 bin/stop-cluster.sh
 
 4.5 详细可用配置项
 以下都是非常重要的配置项：
  1、TaskManager总共能使用的内存大小（taskmanager.heap.mb）
  2、每一台机器上能使用的 CPU 个数（taskmanager.numberOfTaskSlots）
  3、集群中的总 CPU个数（parallelism.default）
  4、临时目录（taskmanager.tmp.dirs）
 
 4.6 查看前端web
 http://192.168.139.130:8081/#/overview
 
5、Flink on Yarn 
 #!/bin/sh
 flink run -m yarn-cluster \
 -yqu default \
 -ynm DataCleanJob \  //任务名称
 -yn 2 \   //taskManager的个数
 -ys 2 \   //yarnslots
 -yjm 1024 \   //yarnjobManagerMemory
 -ytm 1024 \   //yarntaskManagerMemory
 -c com.eat.DataClean \
 /task/storeCategory/DataClean-1.0-SNAPSHOT-jar-with-dependencies.jar

查看yarn资源情况

http://192.168.139.130:8088

6、杀掉一个jobID

 yarn application -kill application_1541254233708_0003