大数据生态浅谈

最新推荐文章于 2022-08-28 06:55:20 发布

停不下的脚步

最新推荐文章于 2022-08-28 06:55:20 发布

阅读量1.7k

点赞数

文章标签： big data 大数据

本文链接：https://blog.csdn.net/mylittlered/article/details/121694138

版权

最近由于换工作，抽时间整理了下大数据整体知识点及一些重点问题的思考，通过这篇文章和大家一起探讨下一些问题。我们先来看一下我整理的这张图，图中内容是粗浅分类，不必过多在意是否归属正确。

CDH、HDP闭源后，如果使用开源hadoop生态组件将会面临几个大的挑战：

1、组件之间的版本冲突问题。当出现版本冲突问题时，往往问题较难定位，日志中的错误信息很难直观发现是版本冲突问题。比如我之前使用Kerberos集成kafka还是zk时，遇到了版本冲突问题，最后解决方式是给centos7.6打patch，类似这样的问题更多的会出现在一些活跃度比较低的组件中，比如atlas、ranger等。针对这个问题的解决方案是，我们可以参考HDP的版本。

2、大规模集群的安装部署缺少开源组件，我们不能使用ambari部署开源组件，只能选择HDP的镜像（待确认）。目前的解决方案是可以借助Ansible、puppet、chef这种工具来构建部署脚本，但是不够产品化，自己公司用没问题，但是要是给客户交付，肯定得开发一个图形界面的部署项目，据我了解目前很多大数据厂商都在这块投入很大，我们可以持续跟进社区，预估要不了多久就会有和ambari一样的组件，或者ambari直接支持开源组件部署。

3、开源组件构建的大数据平台稳定性如何。从实际使用后的感受，稳定性还是很不错的，基本没有出现集群挂掉的情况，任务失败的情况很多，这和集群稳定性没关系，多关注资源分配和数据清洗大部分问题都能解决。

4、当前开源大数据生态的不足点。除了上面提到的部署问题，目前社区组件中和数据治理相关组件都不是很好用。atlas、griffin、falcon及多租户权限组件ranger、sentry，这些组件社区活跃度不够高，遇到的很多问题不能及时修复，大厂基本都是fork以后二次开发。这两年国家发文强调了数据治理，所以金融、政府等单位都在大数据治理先关课题上主动或被动的投入了更多资源。我接触到了不少2B公司都在自研或二次开发数据治理组件。我个人建议是对于大数据初学者或2B项目接触少的同学，暂时不要在数据治理上花费太多精力。

5、开源组件在产品化上做的不是很好。我们早些年一直用的sqoop+azkaban做数据同步，经常会被客户调整不够产品化，而我们又不想使用kettle，太重了不够灵活。当我们发现了dolphinscheduler后，如获至宝。主要原因是面对越来越多的2b客户，或者企业内部集群使用人员越来越多，我们非常迫切的需要更可视化、流程化、产品化的组件来在大数据平台上开发。

其他：

1、百花齐放的olap引擎。作为数据应用的载体之一olap引擎一直是大数据体系中非常重要的知识点。目前的olap引擎非常多，但是个人推荐，尽量多选择ROLAP中的组件，比如ck就是很好的选择，因为olap引擎的选择是一个篇幅较长的话题，我后面可能单独开篇介绍下这块内容。

2、大数据 on k8s。大数据组件上云应该是大数据发展的必经之路，spark on k8s，hadoop on k8s，主要是k8s具备了资源管理的能力，替代了Yarn或mesos，但是会引发数据本地化失效问题，但是由于硬件设备网络资源的发展提升，数据本地化的网络加速意义不是很大，那么我们就可以考虑新的数据存储和计算完全分离。也会引发一些新的问题，比如spark的external shuffle serivce on k8s,以及任务队列资源管理等问题。目前大厂都在on k8s的架构上实践了一些业务。

停不下的脚步

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据生态浅谈

最近由于换工作，抽时间整理了下大数据整体知识点及一些重点问题的思考，通过这篇文章和大家一起探讨下一些问题。我们先来看一下我整理的这张图，图中内容是粗浅分类，不必过多在意是否归属正确。问题1：CDH、HDP闭源后，开源大数据平台的稳定性和注意事项？我个人前后给多加公司搭建了多套大数据平台，都是基于apache hadoop生态，所以CDH、HDP的闭源对我来说是好事情，让自己的经验更加宝贵，我一直坚持开源组件主要是开源组件的搭配灵活性更高，可以根据自己需求替换或升级某些组件。...
复制链接

扫一扫