大体流程

最新推荐文章于 2021-06-29 16:02:48 发布

酴醿落尽.

最新推荐文章于 2021-06-29 16:02:48 发布

阅读量131

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jianghebujini/article/details/117049132

版权

⽐赛系统使⽤

1.

界⾯介绍

2.

主机登录

基础环境

1.

主机名修改 , 主机与 ip 地址映射关系 (ip 地址使⽤的是局域⽹ )

2.

ssh 免密登录

3.

时间同步

4.

关闭防⽕墙

5.

本地 repo ⽂件

6.

配置 JDK

集群搭建

Zookeeper 集群搭建

1.

下载⽂件 wget http://xxxxx

2.

解压 tar- -xzvf xxx.tar.gz

3.

配置系统环境变量 ZOOKEEPER_HOME

4.

配置

zoo.cfg ⽂件

5.

配置

myid ⽂件注意 id 的号码

6.

分发⽂件 scp -r source_dir user@host:/dest_dir

7.

3 台主机分别启动 zk 服务 zkServe.sh start && zkServer.sh status Hadoop 集群搭建

1.

下载⽂件 2.7.3

2.

解压⽂件

3.

配置系统环境变量 HADOOP_HOME

, 把 bin 和 sbin2 个⽬录都添加到系统环境变量 PATH ，不

要忘记⽣效和分发到另外 2 台服务器

4.

配置⽂件：参考地址 https://hadoop.apache.org/docs/r2.7.3/

1.

hadoop-env.sh

: 配置 JAVA_HOME 系统环境变量

2.

core-site.xml

： Hadoop 的核⼼配置， uri ，临时⽬录等

3.

hdfs-site.xml

： hdfs 分布式⽂件系统的配置，副本因⼦、 namenode 、

datanode 的元数据路径等

4.

mapred-site.xml :MapReduce 计算框架使⽤的资源调度框架

5.

yarn-site.xml :yarn 资源调度框架相关的配置，

resourcemanager,nodemanager

6.

slaves

:DataNode,NodeManager

7.

master

:NameNode,ResourceManager

5.

分发⽂件到另外 2 台服务器

6.

在 master 上格式化 namenode hdfs namenode -format

7.

启动 Hadoop 分布式集群 start-all.sh

8.

在 3 台服务器上分别执⾏ jps

查看启动的进程

Hbase 集群搭建

1.

下载软件

2.

解压

3.

配置系统环境变量 HBASE_HOME

4.

修改配置⽂件参考地址： http://hbase.apache.org/book.html#distributed

1.

hbase-env.sh : 配置系统环境变量 JAVA_HOME ，关闭 hbase ⾃带的 zk 集群

2.

hbase-site.xml ：配置 hbase 在 hdfs 上的存储位置，使⽤的 zk 集群， zk 集群元数

据存放位置，开启分布式等

3.

regionservers :RegionServer 服务器节点 5.

将 Hadoop 集群的 core-site.xml,hdfs-site.xml ⽂件软连到 Hbase 配置⽬录

ln -s

$HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf/

6.

将⽂件分发到另外 2 台服务器

7.

启动 Hbase 集群 start-hbase.sh

Hive 数仓集群

安装 MySQL 服务

1.

确认是否使⽤了本地源及是否有 mysql 源

2.

安装 yum install mysql-community- y

3.

启动服务 systemctl start mysqld

4.

查看初始密码 cat /var/log/mysqld.log | grep password

5.

使⽤初始密码登陆 mysql -u root -p

6.

修改全局密码安全策略 set global validate_password_policy=0;set global

validate_password_length=4;

7.

修改 root ⽤户密码 alter user 'root'@'localhost' identified by '123456';

8.

创建远程可登陆的 root ⽤户

create user 'root'@'%' with grant option;flush

privileges;

9.

创建数据库

安装 Hive

1.

下载软件

2.

解压

3.

配置系统环境变量

HIVE_HOME

4.

下载 jdbc 驱动到 $HIVE_HOME/lib

5.

将⽂件分发到指定的服务器；

6.

修改制定节点上的 jlin cp $HIVE_HOME/lib/jlin-2.12.jar

$HADOOP_HOME/share/hadoop/yarn/lib

7.

配置⽂件 ( 按照题⽬要求，将哪个节点作为 master)

1.

hive-site.xml : 使⽤ jdbc 连接 MySQL 数据库， jdbc 启动器、数据库⽤户名、密

码、 hive 数仓在 HDFS 上的位置

2.

hive-env.sh : 配置 HADOOP_HOME 系统环境变量 8.

到指定的服务器上进⾏配置 (hive 的 slave 节点 )

1.

系统环境变量 HIVE_HOME

2.

hive-site.xml : 配置数仓在 HDFS 上的位置、 thrift 地址等 ( 可以多 client 同时登录

Hive)

3.

hive-env.sh : 配置 HADOOP_HOME 系统环境变量

9.

在指定的 hive master 节点上启动 hive 的 metastore 服务 nohup hive --service

metastore > /dev/null 2>&1 &

10.

在指定的 hive slave 节点上启动 hive client 或直接执⾏创建数据库命令

hive -e

'create database hive_db;show databases;'

Spark 集群

安装 Scala

1.

下载软件

2.

解压

3.

配置系统环境变量

SCALA_HOME

3 个节点执⾏

scala -version

安装 Spark

1.

下载软件

2.

解压

3.

配置系统环境变量

SPARK_HOME

4.

配置⽂件，参考地址 https://spark.apache.org/docs/2.4.0/

1.

spark-env.sh : 配

置 JAVA_HOME,SCALA_HOME,HADOOP_CONF_DIR,SPARK_MASTER_IP,SPARK_WORKER

_MEMORY

2.

slaves 中添加⼯作节点的主机名

5.

分发⽂件

6.

在指定的节点上启动 Spark 集群 $SPARK_HOME/sbin/start-all.sh

7.

在节点上分别执⾏ jps 查看进程信息 PYTHON 爬⾍

1.

使⽤ requests,bs4,lxml 等模块爬取论坛内所有的帖⼦；注意： 将爬取下的数据存⼊

指定的⽂件，字段与字段之间使⽤逗号分隔，注意写⼊⽂件中字段的顺序

2.

在 hive 中创建数据库和数据表，注意：使⽤的数据库和数据表中字段的名称

3.

将本地⽂件系统的⽂件导⼊到 hive 数据表中 load data local inpath 'path'

overwrite into table table_name

决赛

Hive 集群

安装及注意事项同选拔赛

安装 sqoop

1.

下载

2.

解压

3.

配置系统环境变量 SQOOP_HOME ，⽣效 ( 指定的节点 )

4.

复制 jdbc 驱动到 $SQOOP_HOME/lib

5.

配置⽂件

1.

sqoop-env.sh 配

置 HADOOP_COMMON_HOME,HADOOP_MAPRED_HOME,HIVE_HOME,ZOOCFGDIR

系统环境

变量

2.

复制 $HIVE_HOME/conf/hive-site.xml 到 $SQOOP_HOME/conf/

6.

查看 sqoop 版本号 sqoop version

7.

通过 sqoop 查询 MySQL 数据库中的所有数据库 sqoop list-databases --connection

jdbc xxxx --username root --password 数据分析及可视化

数据分析

1. 数据集

共享单⻋数据集

⼈⼝数据集

样例数据：

197068,2017-10-1 0:00,2017-10-1 0:03,31214,17th & Corcoran

St NW,31229,New Hampshire Ave & T St NW,W21022,Member

数据集字段：

骑⾏时间（毫秒为单位）： duration (ms)

开始时间： startdate

结束时间： enddate

开始地点数： startnum

开始地点： startstation

结束地点数： endnum

结束地点： dndstation

单⻋⻋号： bikenum

⽤户类型： type （ Member 会员 / Casual 临时会员） 2.

上传数据 hdfs put xxxx

3.

建表导⼊数据 create table xxxx

4.

分析，常⽤的聚合函数及关键词

avg(),round(),limit group by order by

，以及对

⽇期的处理

数据挖掘

1. 主要是使⽤

Apriori

算法，计算⽀持度和置信度

1.

⽀持度：同时包含 A 和 B 的事务占所有事务的⽐例；

2.

置信度：包含 A 的事务中同时包含 B 的事务所占的⽐例；

可视化

1.

使⽤的是 echarts ，在本地 repo 中提供了 echarts 配置说明和样例图，注意： 在最终提

交的时候需要将 js 转成 json 提交， JSON.stringify(option)

2.

柱状图、折线图、饼图

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大体流程

⽐赛系统使⽤ 1. 界⾯介绍 2. 主机登录基础环境 1. 主机名修改,主机与ip地址映射关系(ip地址使⽤的是局域⽹) 2. ssh免密登录 3. 时间同步 4. 关闭防⽕墙 5. 本地repo⽂件 6. 配置JDK 集群搭建 Zookeeper集群搭建 1. 下载⽂件 wget http://xxxxx 2. 解压 tar- -xzvf xxx.tar.gz 3. 配置系统环境变量 ZOOKEEPER_
复制链接

扫一扫

酴醿落尽. CSDN认证博客专家 CSDN认证企业博客

码龄4年

4: 原创

148万+: 周排名

71万+: 总排名

547: 访问

: 等级

40: 积分

0: 粉丝

0: 获赞

0: 评论

4: 收藏

私信

关注

热门文章

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。