项目环境搭建--数仓

2/在finalshell中假如你进行ctrl + s 窗口就不动了。

修改配置文件:

进入到/opt/installs/sqoop/conf

一、安装CentOS

1、修改映射关系

vi /etc/hosts

image.png


2、免密登录

ssh-keygen -t rsa

ssh-copy-id shucang


3、关闭了防⽕墙 

systemctl stop firewalld
systemctl disable firewalld


4、修改linux的⼀个安全机制

vi /etc/selinux/config

修改⾥⾯的 SELINUX=disabled


5、修改yum源:

修改阿里云的镜像文件:
1、cd /etc/yum.repos.d/ 
2、备份⼀下:mv CentOS-Base.repo CentOS-Base.repo.bak
3、下载阿⾥云镜像到本地:
 curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
4、清除yum的缓存
   yum clean all
   yum makecache
5、yum install -y ntpdate
yum install -y vim
yum install -y net-tools



二、安装JDK

[root@shucang ~]# mkdir -p /opt/modules
[root@shucang ~]# mkdir -p /opt/installs


tar -zxvf jdk-8u171-linux-x64.tar.gz -C /opt/installs/
mv jdk1.8.0_171/ jdk

配置环境变量:
export JAVA_HOME=/opt/installs/jdk
export PATH=$PATH:$JAVA_HOME/bin

刷新环境变量:
source /etc/profile

验证:
java -version


三、安装Hadoop【伪分布式】hdfs以及yarn都需要安装

1、安装hdfs

先安装hdfs:
tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
mv hadoop-3.3.1/ hadoop
环境变量:

export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新环境变量
source /etc/profile

验证:hadoop version

修改配置
1、修改core-site.xml
<configuration>
  <!-- 设置namenode节点 -->
  <!-- 注意: hadoop1.x时代默认端⼝9000 hadoop2.x时代默认端⼝8020 hadoop3.x时 代默认端⼝ 9820 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://shucang:9820</value>
  </property>
  
  <!-- hdfs的基础路径,被其他属性所依赖的⼀个基础路径 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/installs/hadoop/tmp</value>
  </property>
</configuration>


2、修改hdfs-site.xml
<configuration>
    <property>
        <!--备份数量-->
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!--secondarynamenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>shucang:9868</value>
    </property>
    <!-- namenode守护进程的http地址:主机名和端⼝号。参考守护进程布局 -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>shucang:9870</value>
    </property>
</configuration>
3、修改hadoop-env.sh
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

export JAVA_HOME=/opt/installs/jdk

4、修改workers 文件
shucang


4、格式化namenode
hdfs namenode -format

image.png


2、再安装Yarn:


2.1   /opt/installs/hadoop/etc/hadoop 文件夹下:mapred-site.xml

指定mapreduce运行平台为yarn

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2.2   /opt/installs/hadoop/etc/hadoop 文件夹下:yarn-site.xml

<!--指定resourceManager启动的主机为第一台服务器-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>shucang</value>
    </property>


    <!--配置yarn的shuffle服务-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value> 
    </property>


2.3  检查hadoop-env.sh 中是否配置了权限:

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root


2.4 继续配置:为了防止报AppMaster的错误,需要如下配置
获取classpath的值:

image.png

2.5  /opt/installs/hadoop/etc/hadoop 文件夹下:yarn-site.xml

<property>
        <name>yarn.application.classpath</name>
        <value>/opt/installs/hadoop/etc/hadoop:/opt/installs/hadoop/share/hadoop/common/lib/*:/opt/installs/hadoop/share/hadoop/common/*:/opt/installs/hadoop/share/hadoop/hdfs:/opt/installs/hadoop/share/hadoop/hdfs/lib/*:/opt/installs/hadoop/share/hadoop/hdfs/*:/opt/installs/hadoop/share/hadoop/mapreduce/*:/opt/installs/hadoop/share/hadoop/yarn:/opt/installs/hadoop/share/hadoop/yarn/lib/*:/opt/installs/hadoop/share/hadoop/yarn/*</value> 
    </property>


启动和停止yarn平台:

启动: start-yarn.sh
停止: stop-yarn.sh

image.png


也可以使用web访问一下:

跟ResourceManager电脑的IP保持一致 http://192.168.233.128:8088

image.png


四、安装MySQL8.0

Linux--安装MySQL8.0-CSDN博客


五、安装Hive

安装本地模式

Linux--安装hive-CSDN博客

格式化元数据:

schematool --initSchema -dbType mysql

2、启用元数据 metastore

拷贝一个脚本 hive-service-manager.sh

[root@shucang hive]# cd /usr/local/bin

[root@shucang bin]# chmod 777 hive-server-manager.sh

3、设置远程连接 hiveserver2

hive-server-manager.sh start

六、安装Flume和DataX 

1、flume的安装

解压,重命名

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/installs/
mv apache-flume-1.9.0-bin/ flume

 在企业中安装软件起始有两个地方比较常见:
/usr/local/
也可以安装在 /opt/installs

 修改配置文件:/etc/profile

export FLUME_HOME=/opt/installs/flume
export PATH=$PATH:$FLUME_HOME/bin:

刷新一下:

source /etc/profile

image.png


修改一下flume的配置文件:

cp flume-env.sh.template flume-env.sh

image.png


2、DataX安装

1、上传  /opt/modules
2、解压   tar -zxvf datax.tar.gz  -C /opt/installs
3、修改/etc/profile
   配置环境变量:
   export DATAX_HOME=/opt/installs/datax
   export PATH=$PATH:$DATAX_HOME/bin
   
   source /etc/profile


3、安装SQOOP

tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/installs/

重命名:
mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop

也可以使用如下命令:--strip-components 1 解压后获取一层里面的内容
mkdir /opt/installs/sqoop && tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/installs/sqoop --strip-components 

开始配置环境变量:/etc/profile

shift + g 直接到最后一行

export SQOOP_HOME=/opt/installs/sqoop
export PATH=$PATH:$SQOOP_HOME/bin

 刷新一下:

source /etc/profile

image.png


在finalshell中假如你进行ctrl + s 窗口就不动了。

修改配置文件:

进入到/opt/installs/sqoop/conf

cp sqoop-env-template.sh sqoop-env.sh

修改这个可执行脚本中的变量

image.png


拷贝一个mysql8.0的驱动包

image.png

cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ../lib/

 将这个驱动包,放入到 sqoop 的 lib 目录下

image.png


七、安装DS【单机版】

1、上传,解压

上传,解压
tar -zxvf  apache-dolphinscheduler-3.1.8-bin.tar.gz -C /opt/installs/

2、将mysql的驱动包拷贝到所有的服务的jars目录下: 

cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./api-server/libs/
cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./alert-server/libs/
cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./master-server/libs/
cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./worker-server/libs/
cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./tools/libs/
cp /opt/installs/hive/lib/mysql-connector-java-8.0.26.jar ./standalone-server/libs/standalone-server/

 3、在Linux黑窗口运行:

export DATABASE=mysql
export SPRING_PROFILES_ACTIVE=dolphinscheduler
export SPRING_DATASOURCE_URL="jdbc:mysql://shucang:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&useSSL=false&allowPublicKeyRetrieval=true"
export SPRING_DATASOURCE_USERNAME=root
export SPRING_DATASOURCE_PASSWORD=123456

4、初始化数据库:

bash tools/bin/upgrade-schema.sh

 5、修改配置文件:

/opt/installs/dolphinscheduler/standalone-server/conf

修改 DolphinScheduler 的配置
在 DolphinScheduler 的安装目录下找到 conf/application.yaml 文件。
将其中关于数据库连接的部分修改为指向你的 MySQL 实例,包括用户名、密码、数据库名等信息。以下是修改后的示例:
  datasource:
    driver-class-name: com.mysql.cj.jdbc.Driver
    url: jdbc:mysql://shucang:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&useSSL=false&allowPublicKeyRetrieval=true
    username: root
    password: 123456

 6、启动

注意: Standalone 仅建议 20 个以下工作流使用,因为其采用内存式的 H2 Database, Zookeeper Testing Server,任务过多可能导致不稳定,并且如果重启或者停止 standalone-server 会导致内存中数据库里的数据清空。 

如何启动和关闭单机版:
# 启动 Standalone Server 服务
bash ./bin/dolphinscheduler-daemon.sh start standalone-server
# 停止 Standalone Server 服务
bash ./bin/dolphinscheduler-daemon.sh stop standalone-server
# 查看 Standalone Server 状态
bash ./bin/dolphinscheduler-daemon.sh status standalone-server

image.png

单机启动,不需要zk,它内置了zk,把我们自己的zk服务停掉。

 单机模式比较省内存:

访问地址:http://192.168.233.134:12345/dolphinscheduler/ui
账号和密码:  admin  dolphinscheduler123

 问题:上传资源提示 存储未启用 如何开启HDFS

这个软件下面有很多的服务,将每一个服务下的common.properties中的内容全部修改一遍

 

修改所有组件下的common.properties

resource.storage.type=HDFS
resource.storage.upload.base.path=/dolphinscheduler
resource.hdfs.fs.defaultFS=hdfs://shucang:9820

修改hdfs的权限:
hdfs dfs -chmod 777 /

7、重启服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值