数据人老桥-CSDN博客

原创大数据的存储生命期治理模型

在当前降本增效的大背景下，谁能够合理的把成本治理下来，谁就有了在公司的优先生存权，防止自己成为被降本的对象（好尴尬！！！），今天介绍一下H公司在大数据存储这块的成本方案(做早了。。。一样的套路，先看存储成本的公式：存储成本=物理存储单价/磁盘利用率*数据冗余度*量*数据压缩比数据表上，我们都会设置其保存周期，但是该周期时长由数据开发所设定，我们只能从单个表上去分析其设置的是否合理，但是当表很多之后（H公司的hive里面有上万的表），不可能挨个去询问。

2024-07-11 14:39:06 864

原创离在线混部，服务器利用率提升300%

在这个降本增效的时代，大数据作为Infra成本中的重要构成部分，如何降低大数据场景的Infra成本，是数据平台团队必须要考虑的事情。H公司的混部方案，在行业中较为先行，在2020年即完成了落地，取得了很好的收益，本篇文章即是对该方案的介绍。我们首先从成本公式来看：要降低成本，需要在“单价”和“量”上做文章。从数据平台团队的视角来看，“量”意味着需要对业务进行治理，优化用户的使用行为，需要用户紧密配合，如果不是从上至下来推动，实施起来会比较困难，也容易受到挑战。

2024-07-09 19:40:01 636

原创如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)

在Proxy FileSystem中，根据path中namenode判定是hdfs2还是hdfs3，如果是hdfs3，则通过classloader，加载hdfs3的jar，而hdfs3的jar包，事先我们已经采用assembly的方式，将hdfs3所依赖的所有包然后外加HDFS3ProxyFileSystemImpl.class全部打了进去，形成hdfs3.jar，放到某个网络地址上，可以通过URL加载到该jar。如此便将hdfs2和hdfs3的环境给隔离开了。下面是我们的解决方案逻辑。

2024-06-24 16:01:54 914

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据的存储生命期治理模型

原创 离在线混部，服务器利用率提升300%

原创 如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)

空空如也

空空如也

原创大数据的存储生命期治理模型

原创离在线混部，服务器利用率提升300%

原创如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)