数据开发
文章平均质量分 91
个推技术
个推推送CSDN官方博客--提供消息推送、用户画像、应用统计、一键认证等开发者服务,传递最新技术实践和干货!链接更多开发者!
展开
-
Hadoop3.0时代,怎么能不懂EC技术纠删码? 个推为你解读
根据云存储服务商Backblaze发布的2021年硬盘“质量报告”,现有存储硬件设备的可靠性无法完全保证,我们需要在软件层面通过一些机制来实现可靠存储。一个分布式软件的常用设计原则就是面向失效的设计。 作为当前广泛流行的分布式文件系统,HDFS需要解决的一个重要问题就是数据的可靠性问题。3.0以前版本的Hadoop在HDFS上只能采用多副本冗余的方式做数据备份,以实现数据可靠性目标(比如,三副本11个9,双副本8个9)。多副本冗余的方式虽然简单可靠,却浪费了成倍的存储资源,随着数据量的增长,将带来大量原创 2022-05-27 11:40:41 · 1282 阅读 · 0 评论 -
如何使Codis存储成本降低90%?个推:去吧,Pika
个推使用Pika替代codis-server,实现KV数据存储成本降低90%!原创 2022-03-18 17:46:26 · 1292 阅读 · 0 评论 -
个推技术 | ETL工程师必看!超实用的任务优化与断点执行方案
前言 随着大数据时代的快速发展,企业每天需要存储、计算、分析数以万亿的数据,同时还要确保分析的数据具备及时性、准确性和完整性。面对如此庞大的数据体系,ETL工程师(数据分析师)如何能高效、准确地进行计算并供业务方使用,就成了一个难题。 作为一家数据智能公司,个推在大数据计算领域沉淀了丰富的经验。本篇文章将对大数据离线计算过程中出现的任务缓慢和任务中断这两大痛点问题提出解决思路,期望读者能够有所收获。 一、任务缓慢 “任务执行缓慢”通常是指任务的执行时间超过10个小时,且不能满足数据使用方对数据.原创 2021-05-25 19:45:09 · 512 阅读 · 9 评论