用户画像第一章(企业级360°全方位用户画像_项目集群环境搭建)

本文详细介绍了如何搭建企业级360°用户画像项目集群环境,包括集群配置、软件版本、数据库设置、Zookeeper、Hadoop、HBase、Hive、Spark等组件的安装与配置,以及数据采集工具Flume和任务调度框架Oozie的使用。文中还强调了MySQL数据库版本选择、字符编码和Zookeeper的高可用性。
摘要由CSDN通过智能技术生成

项目环境搭建

搭建好的集群:链接:
虚拟机说明
用户名:root
密码:123456
主机名:bd001
Ip:192.168.10.20
Mysql链接: 用户:root 密码:123456
虚拟机配置10网段(根据实际情况启动虚拟网卡)
在这里插入图片描述
在这里插入图片描述
集群安装路径:/export/servers
apache-flume-1.6.0-cdh5.14.0-bin
flume
hadoop
hadoop-2.6.0-cdh5.14.0
hbase
hbase-1.2.0-cdh5.14.0
hive
hive-1.1.0-cdh5.14.0
jdk1.8.0_221
oozie
oozie-4.1.0-cdh5.14.0
scala-2.11.12
solr
solr-4.10.3-cdh5.14.0
spark
spark-2.2.0-bin-2.6.0-cdh5.14.0
sqoop
sqoop-1.4.6-cdh5.14.0
zookeeper
zookeeper-3.4.5-cdh5.14.0
软件启动:bash /root/bd.sh start/stop (启动/关闭)
2144 ResourceManager
1985 SecondaryNameNode
2933 HRegionServer
2806 HMaster
1591 QuorumPeerMain
3015 Bootstrap
3240 Jps
3049 Bootstrap
1802 DataNode
2299 JobHistoryServer
1708 NameNode
2239 NodeManager

依据项目需求,使用大数据相关技术框架,安装目录及软件版本具体如下图所示:
在这里插入图片描述
所有软件的安装以后,创建软连接,方便日后软件的升级。

ln [OPTION]… [-T] TARGET LINK_NAME
比如
ln -s /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0 spark

在实际大数据项目中,大数据管理WEB界面,方便安装部署和监控大数据框架组件:

1)、ClouderaManager
CM
安装软件目录:/opt/parcells/…///…
2)、Ambari
开源
/etc/
/usr/lib/impala/

4.1、大数据平台基础环境
安装开发语言软件JDK1.8Scala2.11MySQL数据库。

1)、JDK 1.8
所有的大数据框架(90%)基于Java语言编写的
2)、Scala 2.11
Spark框架和Kafka框架使用Scala语言编写的
3)、MySQL
- Hive 表元数据MetaStore
- Oozie和Hue元数据
- 系统:WEB Platform
业务数据存储:tags

在这里插入图片描述
1)、安装JDK1.8,配置环境变量

JAVA HOME
export JAVA_HOME=/export/servers/jdk
export PATH= P A T H : PATH: PATH:{JAVA_HOME}/bin

2)、安装Scala 2.11,配置环境变量

SCALA HOME
export SCALA_HOME=/export/servers/scala
export PATH= P A T H : PATH: PATH:{SCALA_HOME}/bin

3)、安装MySQL数据库
按照MySQL数据库功能:

1)、Hive MetaStore存储
存储元数据
2)、标签系统WEB 平台数据存储
tbl_basic_tag
tbl_model
3)、Oozie 数据存储
Oozie调度Spark2应用程序
4)、Hue 数据存储
方便操作大数据平台组件
5)、业务数据: tags_dat
订单数据、订单商品表数据、会员信息数据、行为日志数据

截图如下所示:
在这里插入图片描述
在实际项目,MySQL数据库字符编码最好是UTF-8,避免乱码出现。
此处使用数据库版本:5.1.73,此版本较低,实际项目使用高版本(至少为**5.6.17**)版本以上。

[root@bigdata-cdh01 ~]# mysql -uroot -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 2
Server version: 5.1.73 Source distribution
Copyright © 2000, 2013, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type ‘help;’ or ‘\h’ for help. Type ‘\c’ to clear the current input statement.
mysql> show databases ;
±-------------------+
| Database |
±-------------------+
| information_schema |
| db_orders |
| hue |
| metastore |
| mysql |
| oozie |
| tags |
| tags_dat |
| test |
±-------------------+
9 rows in set (0.31 sec)
设置字符集编码为utf-8,具体设置参考文档。

4.2、分布式协作服务Zookeeper
在大数据框架中为了高可用性,很多框架依赖于Zookeeper,所以先安装Zookeeper框架,单机版安装。
在这里插入图片描述
配置文件:$ZOOKEEPER_HOME/zoo.cfg

#The number of milliseconds of each tick
tickTime=2000
#The number of ticks that the initial
#synchronization phase can take
initLimit=10
#The number of ticks that can pass between
#sending a request and getting an acknowledgement
syncLimit=5
#the directory where the snapshot is stored.
#do not use /tmp for storage, /tmp here is just
#example sakes.
dataDir=/export/servers/zookeeper/datas/data
dataLogDir=/export/servers/zookeeper/datas/log
#the port at which the clients will connect
clientPort=2181
#the maximum number of client connections.
#increase this if you need to handle more clients
#maxClientCnxns=60
##server.1=bigdata-cdh01.itcast.cn:2888:3888
##server.2=bigdata-cdh02.itcast.cn:2888:3888
##server.3=bigdata-cdh03.itcast.cn:2888:3888
#Be sure to read the maintenance section of the
#administrator guide before turning on autopurge.
##http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
#Purge task interval in hours
#Set to “0” to disable auto purge feature
#autopurge.purgeInterval=1

创建数据和日志目录:

mkdir -p /export/servers/zookeeper/datas/data
mkdir -p /export/servers/zookeeper/datas/log

针对Zookeeper集群监控工具:

1)、TaoKeeper
阿里巴巴开源ZK监控工具,目前基本没人使用
2)、zkui
https://github.com/DeemOpen/zkui
https://www.jianshu.com/p/dac4c0bd1d2e

4.3、大数据基础框架Hadoop
安装大数据Hadoop框架,包含三个组件:HDFS(分布式文件系统)、YARN(集群资源管理和任务调度平台)及MapReduce(海量数据处理框架)。
4.3.1、分布式文件系统HDFS
包含服务组件:NameNodeDataNodes,实际项目中按照HDFS HA(基于JN)。
在这里插入图片描述
环境变量配置:$HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/export/servers/jdk

common模块配置文件:$HADOOP_HOME/etc/hadoop/core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
			<name>fs.defaultFS</name>
			<value>hdfs://bigdata-cdh01.itcast.cn:8020</value>
	</property>
	<property>
			<name>hadoop.tmp.dir</name>
			<value>/export/servers/hadoop/datas</value>
	</property>

	<property>
		
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值