基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（五）

IronmanJay

已于 2022-05-12 17:06:02 修改

阅读量4.5k

点赞数 4

分类专栏：大数据基于Spark平台的协同过滤实时电影推荐系统项目系列博客文章标签：推荐系统协同过滤电影推荐系统 spark 大数据

于 2022-03-23 22:23:06 首次发布

本文链接：https://blog.csdn.net/IronmanJay/article/details/123648165

版权

大数据同时被 2 个专栏收录

18 篇文章 15 订阅

订阅专栏

基于Spark平台的协同过滤实时电影推荐系统项目系列博客

11 篇文章 9 订阅

订阅专栏

系列文章目录

项目资源下载

文章目录

系列文章目录
项目资源下载
前言
一、环境配置注意事项
二、 $M o n g o D B$ 环境配置
三、 $R e d i s$ 环境配置
四、 $E l a s t i c S e a r c h$ 环境配置
五、 $A z k a b a n$ 环境配置
六、 $S p a r k$ 环境配置
七、 $Z o o k e e p e r$ 环境配置
八、 $F l u m e - n g$ 环境配置
九、 $K a f k a$ 环境配置
十、 $A p a c h e$ 环境配置
十一、 $T o m c a t$ 环境配置
十二、开发环境配置
总结

前言

上一篇博文主要给大家介绍了整个系统的架构以及整个项目的数据流向。今天的博文就正式开始搭建整个项目了，当然，就如前面所说，后台代码和前端代码并不在此系列博文的内容中，但是代码都在上面的链接，如有需要，自行下载。下面就开始今天的学习吧！

一、环境配置注意事项

先写在前面的是要知道整个项目本来应该是用三个服务器搭建一个集群的，但是考虑到复杂程度最终改为了单节点的服务器，那么也就意味着你电脑的配置要求要足够，这个是比较吃内存的，当然cpu最好还是好一点，我的硬件配置在第一篇博客已经介绍了，但是我建议要做这个项目，内存至少为12G，要不会很卡，因为后期需要启动很多东西，相信我！另外，我建议新建一个非root用户和一个root用户，下面的环境配置都在非root用户操作，因为有些软件的操作在root用户下会有莫名其妙的问题，比如我下面就用的bigdata这个非root用户进行操作的，有需要的时候再切换为root用户即可！

二、 $M o n g o D B$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过WGET下载Linux版本的MongoDB
[bigdata@linux ~]$ wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel62-3.4.3.tgz

// 将压缩包解压到指定目录
[bigdata@linux backup]$ tar -xf mongodb-linux-x86_64-rhel62-3.4.3.tgz -C ~/

// 将解压后的文件移动到最终的安装目录
[bigdata@linux ~]$ mv mongodb-linux-x86_64-rhel62-3.4.3/ /usr/local/mongodb

// 在安装目录下创建data文件夹用于存放数据和日志
[bigdata@linux mongodb]$ mkdir /usr/local/mongodb/data/

// 在data文件夹下创建db文件夹，用于存放数据
[bigdata@linux mongodb]$ mkdir /usr/local/mongodb/data/db/

// 在data文件夹下创建logs文件夹，用于存放日志
[bigdata@linux mongodb]$ mkdir /usr/local/mongodb/data/logs/

// 在logs文件夹下创建log文件
[bigdata@linux mongodb]$ touch /usr/local/mongodb/data/logs/ mongodb.log

// 在data文件夹下创建mongodb.conf配置文件
[bigdata@linux mongodb]$ touch /usr/local/mongodb/data/mongodb.conf

// 在mongodb.conf文件中输入如下内容
[bigdata@linux mongodb]$ vim ./data/mongodb.conf
#端口号port = 27017
#数据目录
dbpath = /usr/local/mongodb/data/db
#日志目录
logpath = /usr/local/mongodb/data/logs/mongodb.log
#设置后台运行
fork = true
#日志输出方式
logappend = true
#开启认证
#auth = true

完成 $M o n g o D B 的安装后，启动 M o n g o D B 服务器$

// 启动MongoDB服务器
[bigdata@linux mongodb]$ sudo /usr/local/mongodb/bin/mongod -config /usr/local/mongodb/data/mongodb.conf

// 访问MongoDB服务器
[bigdata@linux mongodb]$ /usr/local/mongodb/bin/mongo

// 停止MongoDB服务器
[bigdata@linux mongodb]$ sudo /usr/local/mongodb/bin/mongod -shutdown -config /usr/local/mongodb/data/mongodb.conf

三、 $R e d i s$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过WGET下载REDIS的源码
[bigdata@linux ~]$wget http://download.redis.io/releases/redis-4.0.2.tar.gz 

// 将源代码解压到安装目录
[bigdata@linux ~]$ tar -xf redis-4.0.2.tar.gz -C ~/

// 进入Redis源代码目录，编译安装
[bigdata@linux ~]$ cd redis-4.0.2/

// 安装GCC
[bigdata@linux ~]$ sudo yum install gcc

// 编译源代码
[bigdata@linux redis-4.0.2]$ make MALLOC=libc

// 编译安装
[bigdata@linux redis-4.0.2]$ sudo make install

// 创建配置文件
[bigdata@linux redis-4.0.2]$ sudo cp ~/redis-4.0.2/redis.conf /etc/ 

// 修改配置文件中以下内容
[bigdata@linux redis-4.0.2]$ sudo vim /etc/redis.conf
daemonize yes   #37行  #是否以后台daemon方式运行，默认不是后台运行
pidfile /var/run/redis/redis.pid   #41行  #redis的PID文件路径（可选）
bind 0.0.0.0    #64行  #绑定主机IP，默认值为127.0.0.1，我们是跨机器运行，所以需要更改
logfile /var/log/redis/redis.log   #104行  #定义log文件位置，模式log信息定向到stdout，输出到/dev/null（可选）
dir “/usr/local/rdbfile”  #188行  #本地数据库存放路径，默认为./，编译安装默认存在在/usr/local/bin下（可选）

在安装完 $R e d i s$ 之后，启动 $R e d i s$

// 启动Redis服务器
[bigdata@linux redis-4.0.2]$ redis-server /etc/redis.conf

// 连接Redis服务器
[bigdata@linux redis-4.0.2]$ redis-cli

// 停止Redis服务器
[bigdata@linux redis-4.0.2]$ redis-cli shutdown

四、 $E l a s t i c S e a r c h$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过Wget下载ElasticSearch安装包
[bigdata@linux ~]$wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.2.tar.gz

修改 $L i n u x$ 配置参数

// 修改文件数配置，在文件末尾添加如下配置
[bigdata@linux ~]$sudo vim /etc/security/limits.conf 
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096

// 修改* soft nproc 1024 为 * soft nproc 2048
[bigdata@linux ~]$sudo vim /etc/security/limits.d/90-nproc.conf 
* soft nproc 2048     #将该条目修改成2048

// 在文件末尾添加：
[bigdata@linux ~]$sudo vim /etc/sysctl.conf 
vm.max_map_count=655360

// 在文件末尾添加：
[bigdata@linux elasticsearch-5.6.2]$ sudo sysctl -p

配置 $E l a s t i c S e a r c h$

// 解压ElasticSearch到安装目录
[bigdata@linux ~]$ tar -xf elasticsearch-5.6.2.tar.gz -C ./cluster/

// 进入ElasticSearch安装目录
[bigdata@linux cluster]$ cd elasticsearch-5.6.2/

// 创建ElasticSearch数据文件夹data
[bigdata@linux cluster]$ mkdir elasticsearch-5.6.2/data/

// 创建ElasticSearch日志文件夹logs
[bigdata@linux cluster]$ mkdir elasticsearch-5.6.2/logs/

// 修改ElasticSearch配置文件
[bigdata@linux elasticsearch-5.6.2]$ vim ./config/elasticsearch.yml
cluster.name: es-cluster  #设置集群的名称
node.name: es-node   #修改当前节点的名称
path.data: /home/bigdata/cluster/elasticsearch-5.6.2/data  #修改数据路径
path.logs: /home/bigdata/cluster/elasticsearch-5.6.2/logs  #修改日志路径
bootstrap.memory_lock: false   #设置ES节点允许内存交换
bootstrap.system_call_filter: false   #禁用系统调用过滤器
network.host: linux    #设置当前主机名称
discovery.zen.ping.unicast.hosts: ["linux"]   #设置集群的主机列表

完成 $E l a s t i c S e a r c h$ 的配置后，启动 $E l a s t i c S e a r c h$

// 启动ElasticSearch服务
[bigdata@linux elasticsearch-5.6.2]$ ./bin/elasticsearch -d

// 访问ElasticSearch服务
[bigdata@linux elasticsearch-5.6.2]$ curl http://linux:9200/
{
  "name" : "es-node",
  "cluster_name" : "es-cluster",
  "cluster_uuid" : "VUjWSShBS8KM_EPJdIer6g",
  "version" : {
    "number" : "5.6.2",
    "build_hash" : "57e20f3",
    "build_date" : "2017-09-23T13:16:45.703Z",
    "build_snapshot" : false,
    "lucene_version" : "6.6.1"
  },
  "tagline" : "You Know, for Search"
}

// 停止ElasticSearch服务
[bigdata@linux ~]$ jps
8514 Elasticsearch
6131 GradleDaemon
8908 Jps
[bigdata@linux ~]$ kill -9 8514

五、 $A z k a b a n$ 环境配置

5.1 安装 $G i t$

只需要按照下面一步一步的操作就能安装成功

// 安装GIT
[bigdata@linux ~]$ sudo yum install git 

// 通过git下载Azkaban源代码
[bigdata@linux ~]$ git clone https://github.com/azkaban/azkaban.git

// 进入azkaban目录
[bigdata@linux ~]$ cd azkaban/

// 切换到3.36.0版本
[bigdata@linux azkaban]$ git checkout -b 3.36.0

5.2 编译 $A z k a b a n$

只需要按照下面一步一步的操作就能安装成功

// 安装编译环境
[bigdata@linux azkaban]$sudo yum install gcc
[bigdata@linux azkaban]$sudo yum install -y gcc-c++*

// 执行编译命令
[bigdata@linux azkaban]$ ./gradlew clean build

5.3 部署 $\quad Solo$

只需要按照下面一步一步的操作就能安装成功

// 将编译好的azkaban中的azkaban-solo-server-3.36.0.tar.gz拷贝到根目录
[bigdata@linux azkaban]$ cp ./azkaban-solo-server/build/distributions/azkaban-solo-server-3.36.0.tar.gz ~/

// 解压azkaban-solo-server-3.36.0.tar.gz到安装目录
[bigdata@linux ~]$ tar -xf azkaban-solo-server-3.36.0.tar.gz -C ./cluster

// 启动Azkaban Solo单节点服务
[bigdata@linux azkaban-solo-server-3.36.0]$ bin/azkaban-solo-start.sh

访问 $A z k a b a n$ 服务，通过浏览器打开http://ip:8081，通过用户名：azkaban，密码azkaban登录
关闭 $A z k a b a n$ 服务

[bigdata@linux azkaban-solo-server-3.36.0]$ bin/azkaban-solo-shutdown.sh

六、 $S p a r k$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过wget下载zookeeper安装包
[bigdata@linux ~]$ wget https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz 

// 将spark解压到安装目录
[bigdata@linux ~]$ tar –xf spark-2.1.1-bin-hadoop2.7.tgz –C ./cluster

// 进入spark安装目录
[bigdata@linux cluster]$ cd spark-2.1.1-bin-hadoop2.7/

// 复制slave配置文件
[bigdata@linux spark-2.1.1-bin-hadoop2.7]$ cp ./conf/slaves.template ./conf/slaves    

// 修改slave配置文件
[bigdata@linux spark-2.1.1-bin-hadoop2.7]$ vim ./conf/slaves
linux  #在文件最后将本机主机名进行添加

// 复制Spark-Env配置文件
[bigdata@linux spark-2.1.1-bin-hadoop2.7]$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh 
SPARK_MASTER_HOST=linux       #添加spark master的主机名
SPARK_MASTER_PORT=7077        #添加spark master的端口号

安装完成后，启动 $S p a r k$

// 启动Spark集群
[bigdata@linux spark-2.1.1-bin-hadoop2.7]$ sbin/start-all.sh

访问 $S p a r k$ 集群，浏览器访问http://linux:8080
关闭 $S p a r k$ 集群

[bigdata@linux spark-2.1.1-bin-hadoop2.7]$ sbin/stop-all.sh

七、 $Z o o k e e p e r$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过wget下载zookeeper安装包
[bigdata@linux ~]$ wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz 

// 将zookeeper解压到安装目录
[bigdata@linux ~]$ tar –xf zookeeper-3.4.10.tar.gz –C ./cluster

// 进入zookeeper安装目录
[bigdata@linux cluster]$ cd zookeeper-3.4.10/

// 创建data数据目录
[bigdata@linux zookeeper-3.4.10]$ mkdir data/

// 复制zookeeper配置文件
[bigdata@linux zookeeper-3.4.10]$ cp ./conf/zoo_sample.cfg ./conf/zoo.cfg   

// 修改zookeeper配置文件
[bigdata@linux zookeeper-3.4.10]$ vim conf/zoo.cfg
dataDir=/home/bigdata/cluster/zookeeper-3.4.10/data  #将数据目录地址修改为创建的目录

// 启动Zookeeper服务
[bigdata@linux zookeeper-3.4.10]$ bin/zkServer.sh start

// 查看Zookeeper服务状态
[bigdata@linux zookeeper-3.4.10]$ bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /home/bigdata/cluster/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: standalone

// 关闭Zookeeper服务
[bigdata@linux zookeeper-3.4.10]$ bin/zkServer.sh stop

八、 $F l u m e - n g$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过wget下载zookeeper安装包
[bigdata@linux ~]$ wget http://www.apache.org/dyn/closer.lua/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz

// 将zookeeper解压到安装目录
[bigdata@linux ~]$ tar –xf apache-flume-1.8.0-bin.tar.gz –C ./cluster

等待项目部署时使用

九、 $K a f k a$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过wget下载zookeeper安装包
[bigdata@linux ~]$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.10.2.1/kafka_2.11-0.10.2.1.tgz 

// 将kafka解压到安装目录
[bigdata@linux ~]$ tar –xf kafka_2.12-0.10.2.1.tgz –C ./cluster

// 进入kafka安装目录
[bigdata@linux cluster]$ cd kafka_2.12-0.10.2.1/   

// 修改kafka配置文件
[bigdata@linux kafka_2.12-0.10.2.1]$ vim config/server.properties
host.name=linux                  #修改主机名
port=9092                         #修改服务端口号
zookeeper.connect=linux:2181     #修改Zookeeper服务器地址

// 启动kafka服务 !!! 启动之前需要启动Zookeeper服务
[bigdata@linux kafka_2.12-0.10.2.1]$ bin/kafka-server-start.sh -daemon ./config/server.properties

// 关闭kafka服务
[bigdata@linux kafka_2.12-0.10.2.1]$ bin/kafka-server-stop.sh

// 创建topic
[bigdata@linux kafka_2.12-0.10.2.1]$ bin/kafka-topics.sh --create --zookeeper linux:2181 --replication-factor 1 --partitions 1 --topic recommender

// kafka-console-producer
[bigdata@linux kafka_2.12-0.10.2.1]$ bin/kafka-console-producer.sh --broker-list linux:9092 --topic recommender

// kafka-console-consumer
[bigdata@linux kafka_2.12-0.10.2.1]$ bin/kafka-console-consumer.sh --bootstrap-server linux:9092 --topic recommender

十、 $A p a c h e$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 安装HTTPD
[bigdata@linux ~]$ sudo yum install httpd

// 启动HTTPD
[bigdata@linux ~]$ sudo service httpd start

// 关闭HTTPD
[bigdata@linux ~]$ sudo service httpd stop

访问 $A p a c h e$ 服务器，通过浏览器访问http://ip:80

十一、 $T o m c a t$ 环境配置

只需要按照下面一步一步的操作就能安装成功

// 通过wget下载tomcat服务器安装包
[bigdata@linux ~]$ wget http://mirror.bit.edu.cn/apache/tomcat/tomcat-8/v8.5.23/bin/apache-tomcat-8.5.23.tar.gz

// 将tomcat安装包解压到安装目录下
[bigdata@linux ~]$ tar -xf apache-tomcat-8.5.23.tar.gz -C ./cluster/

// 启动tomcat服务
[bigdata@linux apache-tomcat-8.5.23]$ bin/startup.sh

// 关闭tomcat服务
[bigdata@linux apache-tomcat-8.5.23]$ bin/shutdown.sh

访问 $T o m c a t$ 服务，浏览器打开http://ip:8080

十二、开发环境配置

12.1 安装 $I D E A$

这个大家应该都有，而且安装步骤很简单，但是这个一定会用到，一定要安装好，略

12.2 安装 $P o s t m a n$

这个也是傻瓜式操作，而且安装步骤很简单，估计并不会用到，略

12.3 安装 $N o d e J S$

在官网中下载对应版本的 $N o d e J S$ ，并安装
验证安装结果

12.4 安装 $\quad CLI$

在命令行执行：npm install -g @angular/cli
验证安装
安装完成后，请重新启动操作系统

总结

到此为止，这篇博客也结束了。这篇博客的操作性比较强，但是只要安装我的步骤一步一步操作就不会出问题，下篇博客将会给大家带来关于数据初始化的内容，就要涉及到代码的编写了！

IronmanJay

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（五）

系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（一）利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（二）项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（三）项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客（四）……项目资源下载电影推荐系统网站项目源码Github地址（可Fork可Clone）电影推荐系统网站项目源码Gitee地址（可Fork可Clone）电影
复制链接

扫一扫