用户画像第一章(企业级360°全方位用户画像_项目集群环境搭建)

最新推荐文章于 2024-06-15 14:23:27 发布

a大数据yyds

最新推荐文章于 2024-06-15 14:23:27 发布

阅读量1k

点赞数 1

分类专栏：用户画像

本文链接：https://blog.csdn.net/qq_45765882/article/details/106600302

版权

本文详细介绍了如何搭建企业级360°用户画像项目集群环境，包括集群配置、软件版本、数据库设置、Zookeeper、Hadoop、HBase、Hive、Spark等组件的安装与配置，以及数据采集工具Flume和任务调度框架Oozie的使用。文中还强调了MySQL数据库版本选择、字符编码和Zookeeper的高可用性。

摘要由CSDN通过智能技术生成

项目环境搭建

搭建好的集群:链接:
虚拟机说明：
用户名：root
密码：123456
主机名：bd001
Ip：192.168.10.20
Mysql链接: 用户：root 密码：123456
虚拟机配置10网段（根据实际情况启动虚拟网卡）

集群安装路径：/export/servers
apache-flume-1.6.0-cdh5.14.0-bin
flume
hadoop
hadoop-2.6.0-cdh5.14.0
hbase
hbase-1.2.0-cdh5.14.0
hive
hive-1.1.0-cdh5.14.0
jdk1.8.0_221
oozie
oozie-4.1.0-cdh5.14.0
scala-2.11.12
solr
solr-4.10.3-cdh5.14.0
spark
spark-2.2.0-bin-2.6.0-cdh5.14.0
sqoop
sqoop-1.4.6-cdh5.14.0
zookeeper
zookeeper-3.4.5-cdh5.14.0
软件启动：bash /root/bd.sh start/stop （启动/关闭）
2144 ResourceManager
1985 SecondaryNameNode
2933 HRegionServer
2806 HMaster
1591 QuorumPeerMain
3015 Bootstrap
3240 Jps
3049 Bootstrap
1802 DataNode
2299 JobHistoryServer
1708 NameNode
2239 NodeManager

依据项目需求，使用大数据相关技术框架，安装目录及软件版本具体如下图所示：
在这里插入图片描述
所有软件的安装以后，创建软连接，方便日后软件的升级。

ln [OPTION]… [-T] TARGET LINK_NAME
比如
ln -s /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0 spark

在实际大数据项目中，大数据管理WEB界面，方便安装部署和监控大数据框架组件：

1）、ClouderaManager
CM
安装软件目录：/opt/parcells/…///…
2）、Ambari
开源
/etc/
/usr/lib/impala/

4.1、大数据平台基础环境
安装开发语言软件JDK1.8和Scala2.11及MySQL数据库。

1）、JDK 1.8
所有的大数据框架（90%）基于Java语言编写的
2）、Scala 2.11
Spark框架和Kafka框架使用Scala语言编写的
3）、MySQL
- Hive 表元数据MetaStore
- Oozie和Hue元数据
- 系统：WEB Platform
业务数据存储：tags

在这里插入图片描述
1）、安装JDK1.8，配置环境变量

JAVA HOME
export JAVA_HOME=/export/servers/jdk
export PATH= $P A T H :$ {JAVA_HOME}/bin

2）、安装Scala 2.11，配置环境变量

SCALA HOME
export SCALA_HOME=/export/servers/scala
export PATH= $P A T H :$ {SCALA_HOME}/bin

3）、安装MySQL数据库
按照MySQL数据库功能：

1）、Hive MetaStore存储
存储元数据
2）、标签系统WEB 平台数据存储
tbl_basic_tag
tbl_model
3）、Oozie 数据存储
Oozie调度Spark2应用程序
4）、Hue 数据存储
方便操作大数据平台组件
5）、业务数据: tags_dat
订单数据、订单商品表数据、会员信息数据、行为日志数据

截图如下所示：
在这里插入图片描述
在实际项目，MySQL数据库字符编码最好是UTF-8，避免乱码出现。
此处使用数据库版本：5.1.73，此版本较低，实际项目使用高版本（至少为**5.6.17**）版本以上。

[root@bigdata-cdh01 ~]# mysql -uroot -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 2
Server version: 5.1.73 Source distribution
Copyright © 2000, 2013, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type ‘help;’ or ‘\h’ for help. Type ‘\c’ to clear the current input statement.
mysql> show databases ;
±-------------------+
| Database |
±-------------------+
| information_schema |
| db_orders |
| hue |
| metastore |
| mysql |
| oozie |
| tags |
| tags_dat |
| test |
±-------------------+
9 rows in set (0.31 sec)
设置字符集编码为utf-8，具体设置参考文档。

4.2、分布式协作服务Zookeeper
在大数据框架中为了高可用性，很多框架依赖于Zookeeper，所以先安装Zookeeper框架，单机版安装。
在这里插入图片描述
配置文件：$ZOOKEEPER_HOME/zoo.cfg

#The number of milliseconds of each tick
tickTime=2000
#The number of ticks that the initial
#synchronization phase can take
initLimit=10
#The number of ticks that can pass between
#sending a request and getting an acknowledgement
syncLimit=5
#the directory where the snapshot is stored.
#do not use /tmp for storage, /tmp here is just
#example sakes.
dataDir=/export/servers/zookeeper/datas/data
dataLogDir=/export/servers/zookeeper/datas/log
#the port at which the clients will connect
clientPort=2181
#the maximum number of client connections.
#increase this if you need to handle more clients
#maxClientCnxns=60
##server.1=bigdata-cdh01.itcast.cn:2888:3888
##server.2=bigdata-cdh02.itcast.cn:2888:3888
##server.3=bigdata-cdh03.itcast.cn:2888:3888
#Be sure to read the maintenance section of the
#administrator guide before turning on autopurge.
##http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
#Purge task interval in hours
#Set to “0” to disable auto purge feature
#autopurge.purgeInterval=1

创建数据和日志目录：

mkdir -p /export/servers/zookeeper/datas/data
mkdir -p /export/servers/zookeeper/datas/log

针对Zookeeper集群监控工具：

1）、TaoKeeper
阿里巴巴开源ZK监控工具，目前基本没人使用
2）、zkui
https://github.com/DeemOpen/zkui
https://www.jianshu.com/p/dac4c0bd1d2e

4.3、大数据基础框架Hadoop
安装大数据Hadoop框架，包含三个组件：HDFS（分布式文件系统）、YARN（集群资源管理和任务调度平台）及MapReduce（海量数据处理框架）。
4.3.1、分布式文件系统HDFS
包含服务组件：NameNode和DataNodes，实际项目中按照HDFS HA（基于JN）。
在这里插入图片描述
环境变量配置：$HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/export/servers/jdk

common模块配置文件：$HADOOP_HOME/etc/hadoop/core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
			<name>fs.defaultFS</name>
			<value>hdfs://bigdata-cdh01.itcast.cn:8020</value>
	</property>
	<property>
			<name>hadoop.tmp.dir</name>
			<value>/export/servers/hadoop/datas</value>
	</property>

	<property>