在生产环境部署CDH集群遇到的问题

机器都是新购置的,75台联想机器:

 型号 Thinkserver RD640  
结构 2U高度机架式服务器(2.5寸16盘位) *1
CPU Intel Xeon E5-2630v2(2.6GHz/6C/15M cache)* 2
内存 16GB R-ECC DDR3 1600内存 *8
硬盘 600GB SAS 10000rpm 热插拔硬盘 *12
网卡 双口Intel百兆/千兆自适应电口网卡(板载) *1
 双口Intel万兆光口网卡(外插,满配多模光模块) *1

10台曙光机器:
型号:曙光I620-G10(超微X9DR3-F主板)
CPU:Intel Xeon E5 2630v2 2.6G 6核*2;(Intel)
内存:16GB DDR3 内存*8;(三星)
磁盘:600G 2.5寸 10Krpm SAS*12;(日立)

在安装过程中发现联想的磁盘都没有分区格式化,不能够挂载,所以就先进行了磁盘分区格式化:
a. lsblk 查看磁盘分区情况
b. fdisk /dev/sdb  进行分区
c. 分区之后进行格式化,mkfs -t ext4 -c /dev/sdb1,这样格式化会很慢大概五十分钟能格式化完成,
因为-c是检查partitioin是否有坏轨所以很慢,去掉-c之后就很快了,有限一两分钟,不过没有使用这个方法,
在格式化过程中,还经常会出现连接断开的情况,所以就是使用了后台运行格式化程序nohup mkfs -t ext4 -c /dev/sdb1ohup &
但是后台运行也发现经常有的机器没有进行格式化,进程不知什么原因被停掉了。网络经常断开(ping该点也ping不通)这一现象,起初以为网络的原因,找了机器提供方(长城软件)来解决问题,
通过查看系统日志(/var/log/messages)发现在断开连接之后,有很多的系统加载信息,再通过last reboot命令发现有很多重启记录,而且机器断开连接都是重启的时间点
所以我们判定集群一直掉线是因为是机器一直重启的原因。再通过一番研究发现是系统版本的原因导致系统一直重启,使用的red hat6.5,里边有两个服务watchdog和bmc-watchdog,这两个服务会导致重启,把这两个服务停掉之后,问题解决,网络也不掉线了,进程也不会消失了。
d. 挂载 mount -a

将CDH安装好之后,发现有几个点的网络传输速度不行,跟机器提供方沟通解决这个问题。

在配置郁系统yum源的时候,直接将老集群机器上的系统yum源(red hat6.2)拷贝过来了,当安装mysqlJDBC驱动yum -y install mysql-connector-java的时候就报了版本依赖冲突的问题,后来将yum源改为了6.5系统版本的就好了

新集群有三个点经常报丢包的警告(Frame Process error)。后来长城软件的人处理网络好了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sunyang098

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值