最近hadoop集群维护有感

还没开始写,就有朋友给我评论,总结的简单精辟。

不过再怎么困难,填坑的事情,必须有人来做,对公司和对个人都是有益的。 最近折腾一个多礼拜,总算又让hadoop稳定了。

我这里主要总结下是两个方面(我这里所指的维护范围更广泛):
第一:是运维

第二:是开发


首先说下运维,在一年的使用中,由于操作系统设置不当所导致的各种异常情况,我都碰到了,而且解决的方案都很简单。

对于多数问题来讲,更多的是告诉应该配置那些参数,而不会告诉如果不配置相关参数会导致什么样的问题(这个也只能在实践中去积累了),

一旦是这方面导致,在初期会耗费大量的时间去排查。

另一方面就是运维人员一定要更加的细心仔细,而不是做完就了事,不去审核和验证。另外就是事后多总结,这样才能提高效率。一定要在集群里配置相关的操作系统参数,如下:

第一:修改/etc/hosts文件

第二:关闭防火墙 并修改禁用selinux:     /etc/selinux/config文件,设置“SELINUX=disabled”

第三:修改操作限制参数/etc/security/limits.conf和/etc/sysctl.conf

第四:同步时间

第五:修改/etc/fstab文件

第六:配置ssh免登

 

 

 


再者开发,就开发而言,主要是三个方面:数据存储、数据管理、统计计算

统计计算相对工作量小点(这一年全是使用hive来处理很多统计指标),但是就编写统计脚本而言,其实很有很多方式实现的,但是使用哪种方式最好,

是需要将业务场景结合起来衡量,一般是考虑增量计算,再去考虑全量计算,另外hive去重(是一个吃力不讨好的方式),公司里很多人认为hive就是一个数据库,其实

这种理解是有误的,一旦这种想法产生,那么hive的优势将无法展现。虽然hive也有一些解决办法(如group by的方式),也不一定适合所有的业务场景。通过一年多对hive

的使用和总结,个人认为hive还只是用SQL的方式做统计(用SQL只是方便其他的会SQL语言的人也能快速上手),跟数据库完全不同。

还有一点就是hive的ClosedByInterruptException的处理,目前没想到更好的解决办法,还需要抽个时间好好解决此问题(能解决此问题将会使hive的使用效率更高)。


数据管理是非常重要,它解决数据的正确性,并保证我们的统计计算有意义,不然所有的努力都将成为泡影。我不赞成将数据管理和统计计算混合在一起,这样带来的后期维护的工作量非常大,应该将这两个功能分开,这样统计脚本只关注计算,保证脚本业务逻辑没有错误。而数据管理关注数据正确性,为统计提供正确的数据。关于数据的管理可以考虑使用mysql、oracle、db2等关系型数据库,也可以考虑用HBase、redis、mongodb等NoSQL类型(如果一个都不用,我也没撒好说的,懂的)。将这些工具如何更好地结合起来使用,发挥更大的作用,需要在实践中不断磨练和提高,没有捷径。另一个就是数据如何分类问题,就是热数据、冷数据等,这个就是根据每个表的性质去考虑了。


最后是数据存储,我这里单独来讲,是因为在统计计算和数据管理两块,都涉及到存储。有时候就有人不知道如何区分了。其实也很简单,我个人理解(业务场景不同)数据管理的存储更通用,不光是作为统计脚本的数据源,还是可以为其他应用提供数据服务的,而统计计算这里的存储只是单单存储统计脚本需要的数据(仅此而已)。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Hadoop集群搭建实验的收获和感想主要包括以下几个方面: 收获: 1. 技术知识:通过实验,深入了解了Hadoop生态系统中的核心组件,如HDFS、MapReduce、YARN等。掌握了如何配置和部署集群,以及如何使用Hadoop工具进行数据存储、处理和分析。 2. 实践经验:实验中遇到了许多实际问题,如网络配置、节点故障等,通过解决这些问题,积累了宝贵的实践经验。 3. 集群管理:学会了如何管理和维护Hadoop集群,包括监控集群状态、调整资源配置、优化性能等。 4. 大数据处理:认识到Hadoop在处理大数据方面的优势,如高吞吐量、低延迟、可扩展性等。这为今后在大数据领域的工作或学习中提供了坚实的基础。 感想: 1. 挑战与成就感:实验过程中遇到了许多挑战,如复杂的配置过程、漫长的部署时间等。但每当解决一个问题,都会感到非常有成就感。 2. 团队合作:搭建Hadoop集群需要多人的协作,大家共同解决问题、分享信息,有助于增强团队凝聚力。 3. 持续学习:Hadoop是一个不断发展的生态系统,需要持续学习以跟上技术的发展。实验过程中学到的知识只是冰山一角,后续还需要进一步深入学习。 4. 实际应用:通过实验,深刻体会到Hadoop在现实生活中的应用,认识到大数据的重要性,以及掌握Hadoop技术的重要性。 总的来说,通过搭建Hadoop集群实验,不仅提高了技术水平,还积累了实践经验,了解了大数据的实际应用,并认识到持续学习的重要性。同时,也感受到了挑战与成就感的交织,以及团队合作的价值。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值