从零开始搭建大数据平台

最新推荐文章于 2024-05-27 09:01:50 发布

aikunjiao3421

最新推荐文章于 2024-05-27 09:01:50 发布

阅读量225

点赞数

文章标签：大数据 java 开发工具

原文链接：http://www.cnblogs.com/bigdata-stone/p/9399929.html

版权

1.首先配置虚拟机，
在node-1上，固定IP，设置好防火墙，然后克隆出节点2和3，修改一下IP和节点hostname。

[root@localhost network-scripts]# vim ifcfg-eth0
DEVICE=eth0
#HWADDR=00:0C:29:57:1E:97（注释掉）
TYPE=Ethernet
#UUID=b3b4e88b-6f57-480b-90d5-13506b174a36（注释掉）
ONBOOT=yes（这个要是yes）
NM_CONTROLLED=yes
BOOTPROTO=static
IPADDR=192.168.23.98
NETMASK=255.255.255.0
GATEWAY=192.168.23.1

可以按照上述配置文件来，就可以固定IP和修改节点的IP地址。（靠谱的修改方式）

1.1修改各个虚拟机主机名
vi /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=node-1
（配置完上述这些就可以用 CRT连接了）
1.2修改主机名和IP的映射关系
vi /etc/hosts
（进去把原本的删除）
192.168.1.101 node-1
192.168.1.102 node-2
192.168.1.103 node-3
1.3配置ssh免密登陆
#生成ssh免登陆密钥

ssh-keygen -t rsa （四个回车）
执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id node-1
ssh-copy-id node-2
ssh-copy-id node-3

1.4同步集群时间
1.5 同步集群时间
常用的手动进行时间的同步
date -s "2017-03-03 03:03:03"
或者网络同步：
yum install ntpdate
ntpdate ntp1.aliyun.com

【安装rz yum install lrzsz】

2.安装JDK

先创建出/export/servers 目录

2.1上传jdk
rz jdk-8u65-linux-x64.tar.gz

2.2解压jdk
tar -zxvf jdk-8u65-linux-x64.tar.gz -C /root/apps

2.3将java添加到环境变量中
vim /etc/profile
#在文件最后添加
export JAVA_HOME=/root/apps/jdk1.8.0_65
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

复制jdk、profile到2，3节点

scp -r jdk root@node-3:/root/export/servers/
scp /etc/profile root@node-3:/etc/

#刷新配置
source /etc/profile

3安装hadoop2.7.4
上传hadoop的安装包到服务器
hadoop-2.7.4-with-centos-6.7.tar.gz
解压安装包
tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz

注意：hadoop2.x的配置文件目录：$HADOOP_HOME/etc/hadoop

第一个：hadoop-env.sh
vi hadoop-env.sh
export JAVA_HOME=/root/apps/jdk1.8.0_65

第二个：core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/export/servers/hadoop</value>
</property>

第三个：hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-1:50090</value>
</property>

第四个：mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

第五个：yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

第六个：slaves文件，里面写上从节点所在的主机名字
vi slaves
node-1
node-2
node-3

将hadoop添加到环境变量

vim /etc/proflie
export JAVA_HOME=/root/apps/jdk1.8.0_65
export HADOOP_HOME=/root/apps/hadoop-2.7.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

这时候复制hadoop到2，3了。
scp -r hadoop root@node-2:/root/export/servers
scp -r hadoop root@node-3:/root/export/servers

3.3格式化namenode（本质是对namenode进行初始化）
hdfs namenode format (hadoop namenode -format)

3.4启动hadoop
先启动HDFS
sbin/start-dfs.sh （一定要用这种方式启动，不然有时候namenode启动不了，不要进入sbin文件夹启动）

再启动YARN
sbin/start-yarn.sh

3.5验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode (secondarynamenode)
28066 NodeManager
27803 ResourceManager
27512 DataNode

http://192.168.1.101:50070 （HDFS管理界面）
http://192.168.1.101:8088 （MR管理界面）

【这里登陆node-1:50070 和 node-1:8088 成功的话，hadoop就是安装完成了】

-----------------------------------------------------------------------------

Flume安装:
Flume 的安装非常简单
上传安装包到数据源所在节点上
然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz
然后进入 flume 的目录，修改 conf 下的 flume-env.sh，在里面配置 JAVA_HOME
export JAVA_HOME=/root/export/servers/jdk

-----------------------------------------------------------------------------

Hive 数据仓库安装部署：
1.上传tar包

2.解压
tar -zxvf hive-1.2.1.tar.gz
3.安装mysql数据库
推荐yum 在线安装：
yum安装mysql
yum install mysql mysql-server mysql-devel

完成后，用 /etc/init.d/mysqld start 启动mysql

启动mysql控制台：
mysql
mysql>; USE mysql;
mysql>; UPDATE user SET Password=PASSWORD('hadoop') WHERE user='root';
mysql>; FLUSH PRIVILEGES;
允许远程登录
mysql -u root -p
输入密码：hadoop 就可以登陆mysql了。
Enter Password: <your new password>
mysql>GRANT ALL PRIVILEGES ON *.* TO '用户名'@'%' IDENTIFIED BY '密码' WITH GRANT OPTION;
完成后就能远程管理mysql了。

mysql服务名字 service mysqld start

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;

UPDATE user SET Password=PASSWORD('hadoop') WHERE user='root';

4.配置hive：
vi hive-site.xml
添加如下内容：
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hadoop</value>
<description>password to use against metastore database</description>
</property>
</configuration>

5.安装hive和mysq完成后，将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下
如果出现没有权限的问题，在mysql授权(在安装mysql的机器上执行)
mysql -uroot -p
#(执行下面的语句 *.*:所有库下的所有表 %：任何IP地址或主机都可以连接)
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
FLUSH PRIVILEGES;

6. Jline包版本不一致的问题，需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的
/home/hadoop/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar

启动hive
bin/hive

Hive几种使用方式：
1.Hive交互shell bin/hive

2.Hive JDBC服务(参考java jdbc连接mysql)

3.hive启动为一个服务器，来对外提供服务
bin/hiveserver2
nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &

启动成功后，可以在别的节点上用beeline去连接
bin/beeline -u jdbc:hive2://mini1:10000 -n root

或者
bin/beeline
! connect jdbc:hive2://mini1:10000

4.Hive命令
hive -e ‘sql’
bin/hive -e 'select * from t_test'

-----------------------------------------------------------------------------
Zookeeper集群搭建：
安装前需要安装好jdk

##
检测集群时间是否同步
检测防火墙是否关闭
检测主机 ip映射有没有配置

##下载安装包、解压

tar -zxvf zookeeper-3.4.5.tar.gz
mv zookeeper-3.4.5 zookeeper

##修改环境变量（注意：3台zookeeper都需要修改）

vi /etc/profile
export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin
source /etc/profile

##修改Zookeeper配置文件

cd zookeeper/conf
cp zoo_sample.cfg zoo.cfg
vi zoo.cfg
添加内容：
dataDir=/root/export/servers/zookeeper/zkdata
server.1=node-1:2888:3888 ## (心跳端口、选举端口)
server.2=node-2:2888:3888
server.3=node-3:2888:3888
创建文件夹：
cd /home/hadoop/zookeeper/
mkdir zkdata
在data文件夹下新建myid文件，myid的文件内容为：
cd zkdata
echo 1 > myid

##分发安装包到其他机器
scp -r /root/apps root@mini2:/root/
scp -r /root/apps root@mini3:/root/

##修改其他机器的配置文件
修改myid文件
到mini2上：修改myid为：2
到mini3上：修改myid为：3

##启动（每台机器）
zkServer.sh start
或者编写一个脚本来批量启动所有机器：
for host in "mini1 mini2 mini3"
do
ssh $host "source/etc/profile;/root/apps/zookeeper/bin/zkServer.sh start"
done

##查看集群状态
jps（查看进程）
zkServer.sh status（查看集群状态，主从信息）

如果启动不成功，可以观察zookeeper.out日志，查看错误信息进行排查

配置文件中参数说明:

tickTime这个时间是作为zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是说每个tickTime时间就会发送一个心跳。

initLimit这个配置项是用来配置zookeeper接受客户端（这里所说的客户端不是用户连接zookeeper服务器的客户端,而是zookeeper服务器集群中连接到leader的follower 服务器）初始化连接时最长能忍受多少个心跳时间间隔数。

当已经超过10个心跳的时间（也就是tickTime）长度后 zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 10*2000=20秒。

syncLimit这个配置项标识leader与follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度,总的时间长度就是5*2000=10秒。

dataDir顾名思义就是zookeeper保存数据的目录,默认情况下zookeeper将写数据的日志文件也保存在这个目录里；

clientPort这个端口就是客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口接受客户端的访问请求；

server.A=B:C:D中的A是一个数字,表示这个是第几号服务器,B是这个服务器的IP地址，C第一个端口用来集群成员的信息交换,表示这个服务器与集群中的leader服务器交换信息的端口，D是在leader挂掉时专门用来进行选举leader所用的端口。

-----------------------------------------------------------------------------
HADOOP HA的部署

-----------------------------------------------------------------------------
【接下来就是spark部分的】
-----------------------------------------------------------------------------
Spark部署安装：
三、 Spark集群安装
3.1 下载spark安装包
下载地址spark官网：http://spark.apache.org/downloads.html
这里我们使用 spark-2.0.2-bin-hadoop2.7版本.

3.2 规划安装目录
/opt/bigdata
3.3 解压安装包
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz
3.4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark
3.5 修改配置文件

配置文件目录在 /opt/bigdata/spark/conf
 vi spark-env.sh 修改文件(先把spark-env.sh.template重命名为spark-env.sh)

#配置java环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定spark老大Master的IP
export SPARK_MASTER_HOST=node-1
#指定spark老大Master的端口
export SPARK_MASTER_PORT=7077
 vi slaves 修改文件(先把slaves.template重命名为slaves)
node-2
node-3
3.6 拷贝配置到其他主机
通过scp 命令将spark的安装目录拷贝到其他机器上
scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata
scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

3.7 配置spark环境变量
将spark添加到环境变量,添加以下内容到 /etc/profile
export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin
注意最后 source /etc/profile 刷新配置
3.7 启动spark
#在主节点上启动spark
/opt/bigdata/spark/sbin/start-all.sh
-----------------------------------------------------------------------------
kafka:
首先保证集群的时间同步。
集群启动zookeeper。
6.2 三台机器安装kafka集群
6.2.1 下载kafka安装压缩包
http://archive.apache.org/dist/kafka/

6.2.2 上传压缩包并解压
这里统一使用 kafka_2.11-1.0.0.tgz 这个版本
6.2.3 修改kafka配置文件
第一台机器修改kafka配置文件server.properties
broker.id=0
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/servers/kafka/kafka-logs
num.partitions=2
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=node1:2181,node2:2181,node3:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=node1

第二台机器修改kafka配置文件server.properties
broker.id=1
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/servers/kafka/kafka-logs

num.partitions=2
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=node1:2181,node2:2181,node3:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=node2

第三台机器修改kafka配置文件server.properties
broker.id=2
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/servers/kafka/kafka-logs
num.partitions=2
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=node1:2181,node2:2181,node3:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=node3

6.2.4 启动kafka集群
三台机器启动kafka服务
./kafka-server-start.sh ../config/server.properties
nohup bin/kafka-server-start.sh config/server.properties > /dev/null 2>&1 & 后台启动命令
-----------------------------------------------------------------------------
flume与kafka的整合：

实现flume监控某个目录下面的所有文件，然后将文件收集发送到kafka消息系统中
第一步：flume下载地址
http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz

第二步：上传解压flume

第三步：配置flume.conf
#为我们的source channel sink起名
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#指定我们的source收集到的数据发送到哪个管道
a1.sources.r1.channels = c1
#指定我们的source数据收集策略
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/servers/flumedata
a1.sources.r1.deletePolicy = never
a1.sources.r1.fileSuffix = .COMPLETED
a1.sources.r1.ignorePattern = ^(.)*\\.tmp$
a1.sources.r1.inputCharset = GBK
#指定我们的channel为memory,即表示所有的数据都装进memory当中
a1.channels.c1.type = memory
#指定我们的sink为kafka sink，并指定我们的sink从哪个channel当中读取数据
a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = test
a1.sinks.k1.kafka.bootstrap.servers = node1:9092,node2:9092,node3:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1

启动flume
bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1 -Dflume.root.logger=INFO,console

-----------------------------------------------------------------------------
spark HA:

-----------------------------------------------------------------------------
spark on yarn:

-----------------------------------------------------------------------------
sparkStreaming结合flume操作流程
1 flume push方式
#首先启动spark-streaming应用程序
#再bin/flume-ng agent -n a1 -c conf/ -f conf/flume-push-spark.conf -Dflume.root.logger=INFO,console

生产数据命令： while true;do echo hadoop hadoop spark>>/root/test.txt;sleep 2;done

2 flume poll方式
#首先将下载好的spark-streaming-flume-sink_2.11-2.0.2.jar放入到flume的lib目录下
#将scala-library-2.11.8.jar拷贝到flume的lib目录下，
删除flume的lib下自带的scala-library-2.10.1.jar包
#启动flume
bin/flume-ng agent -n a1 -c conf/ -f conf/flume-poll-spark.conf -Dflume.root.logger=INFO,console
#再启动spark-streaming应用程序
-----------------------------------------------------------------------------
sparkStreaming整合kafka
#首先启动zk
bin/kafka-server-start.sh config/server.properties
#创建topic
bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 1 --partitions 2 --topic test
#查看主题
bin/kafka-topics.sh --list --zookeeper node1:2181
#启动一个生产者发送消息
bin/kafka-console-producer.sh --broker-list node1:9092 --topic test
#启动spark-streaming应用程序
-----------------------------------------------------------------------------
Hbase安装部署：
1.3 hbase集群搭建
----先部署一个zookeeper和hadoop集群
（1）上传hbase安装包
（2）解压
（3）配置hbase集群，要修改4个文件
注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下

（3.1）修改hbase-env.sh
export JAVA_HOME=/export/servers/jdk
//告诉hbase使用外部的zk
export HBASE_MANAGES_ZK=false

（3.2）修改 hbase-site.xml
<configuration>

<property>
<name>hbase.rootdir</name>
<value>hdfs://node1:9000/hbase</value>
</property>

<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>

<property>
<name>hbase.zookeeper.quorum</name>
<value>node1:2181,node2:2181,node3:2181</value>
</property>
</configuration>

（3.3）修改 regionservers
node2
node3
(3.4) 修改 backup-masters来指定备用的主节点
[root@itcast01 conf]# vi backup-masters
node2

(3.5) 配置hbase环境变量
vi /etc/profile
export HBASE_HOME=/export/servers/hbase
Export PATH=$PATH:$HBASE_HOME/bin

(3.6) 拷贝hbase和环境变量到其他节点
scp -r hbase node2:$PWD
scp -r hbase node3:$PWD
scp /etc/profile node2:/etc
scp /etc/profile node3:/etc

(3.7) 让所有节点hbase环境变量生效
在所有节点上执行：source /etc/profile

(4) 将配置好的HBase拷贝到每一个节点并同步时间。
ntpdate -u cn.pool.ntp.org
(5) 启动所有的hbase进程
首先启动zk集群
./zkServer.sh start
启动hdfs集群
start-dfs.sh
启动hbase，在主节点node1上运行：
start-hbase.sh
(6) 通过浏览器访问hbase管理页面
node1:16010
node2:16010
(7) 为保证集群的可靠性，要启动多个HMaster
hbase-daemon.sh start master

注意：使用jdk8的时候，出现了Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0的红色标识。字面意思是MaxPermSize不需要我们配置了，所以我就按照它的方法把default VM arguments中MaxPermSize参数给删掉就不会出现上面的提示了。
-----------------------------------------------------------------------------

转载于:https://www.cnblogs.com/bigdata-stone/p/9399929.html