在过去的2020年,过往记忆大数据公众号发布了300+技术文章,此处列举全年阅读数 TOP 20 的文章,再次分享给大家。
•Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
•数据仓库、数据湖、流批一体,终于有大神讲清楚了!•实时数据架构,终于有人把他说清楚了!•小米 MySQL 数据实时同步到大数据数仓的架构与实践•OPPO 离线数仓到实时数仓库的演进•Apache Doris:基于 MPP 的交互式SQL数据仓库,可用于 OLAP•美团1万台 Hadoop 集群 YARN 的调优之路•每个 Spark 工程师都应该知道的五种 Join 策略•Presto on Spark:扩展 Presto 以支持大规模 ETL•每个大数据工程师都应该知道的OLAP 核心知识点•常见的大数据平台架构设计思路•还在玩数据仓库?现在已经是 LakeHouse 时代!•Presto在车好多的实践•趣头条百 PB 规模 Hadoop 实践•大规模使用 Apache Kafka 的20个最佳实践•面试必知的 Spark SQL 几种 Join 实现•Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能•Kafka 是如何保证数据可靠性和一致性•来自 Facebook 的 Spark 大作业调优经验•Apache Kafka 不需要管理员:删除 Apache ZooKeeper 的依赖
不少有我个人微信的朋友都已经知道,我还有另外一个公众号:Java与大数据架构,这个公众号在2020年11月5日开始发文,日常分享比较基础、适合大数据小白的文章,有兴趣的可以扫码关注一下。