- 博客(3)
- 收藏
- 关注
原创 大数据的存储生命期治理模型
在当前降本增效的大背景下,谁能够合理的把成本治理下来,谁就有了在公司的优先生存权,防止自己成为被降本的对象(好尴尬!!!),今天介绍一下H公司在大数据存储这块的成本方案(做早了。。。一样的套路,先看存储成本的公式:存储成本=物理存储单价/磁盘利用率*数据冗余度*量*数据压缩比数据表上,我们都会设置其保存周期,但是该周期时长由数据开发所设定,我们只能从单个表上去分析其设置的是否合理,但是当表很多之后(H公司的hive里面有上万的表),不可能挨个去询问。
2024-07-11 14:39:06
864
原创 离在线混部,服务器利用率提升300%
在这个降本增效的时代,大数据作为Infra成本中的重要构成部分,如何降低大数据场景的Infra成本,是数据平台团队必须要考虑的事情。H公司的混部方案,在行业中较为先行,在2020年即完成了落地,取得了很好的收益,本篇文章即是对该方案的介绍。我们首先从成本公式来看:要降低成本,需要在“单价”和“量”上做文章。从数据平台团队的视角来看,“量”意味着需要对业务进行治理,优化用户的使用行为,需要用户紧密配合,如果不是从上至下来推动,实施起来会比较困难,也容易受到挑战。
2024-07-09 19:40:01
636
原创 如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)
在Proxy FileSystem中,根据path中namenode判定是hdfs2还是hdfs3,如果是hdfs3,则通过classloader,加载hdfs3的jar,而hdfs3的jar包,事先我们已经采用assembly的方式,将hdfs3所依赖的所有包然后外加HDFS3ProxyFileSystemImpl.class全部打了进去,形成hdfs3.jar,放到某个网络地址上,可以通过URL加载到该jar。如此便将hdfs2和hdfs3的环境给隔离开了。下面是我们的解决方案逻辑。
2024-06-24 16:01:54
914
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人