以下是2020年上半年《大数据技术与架构》发表文章合集,请收藏。 01 实时计算篇 Structured Streaming | Apache Spark中处理实时数据的声明式API HyperLogLog函数在Spark中的高级应用 基于SparkStreaming+Kafka+HBase实时点击流案例 基于Flink SQL构建实时数据仓库 Flink异步之矛-锋利的Async I/O Spark SQL快速入门系列之Hive 基于SparkStreaming+Kafka+HBase实时点击流案例 三万字长文 | Spark性能优化实战手册 Flink整合Oozie Shell Action提交任务带Kerberos认证 Spark源码阅读的正确打开方式 消息队列常见面试问题小集合 Flink1.10和Hive集成一些需要注意的点 Flink事件时间、水印和迟到数据处理 Flink使用Broadcast State实现流处理配置实时更新 实战 | MySQL Binlog通过Canal同步HDFS Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理 Hive on Spark参数调优姿势小结 Flink Logback日志与邮件报警配置 Kafka设计-恰好一次和事务消息 基于Canal和Kafka实现MySQL的Binlog近实时同步 一个基于RabbitMQ的可复用的事务消息方案 Spark性能优化总结 Flink常见异常和错误信息小结 Spark SQL快速入门系列之Hive 实时计算双星-Flink VS Spark 部署模式对比 PID算法和Spark实现反压的原理 关于SparkSQL的开窗函数,你应该知道这些! Spark SQL是如何选择join策略的? Spark on Hive & Hive on Spark,傻傻分不清楚 来看看一个大二学生的Spark练习题 Flink 自定义触发器实现带超时时间的 CountWindow Spark Kafka 基于Direct自己管理offset Apache Kylin | 麒麟出没,必有祥瑞 Flink 参数配置和常见参数调优 利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏 网站日志实时分析之Flink处理实时热门和PVUV统计 大数据量下的集合过滤—Bloom Filter 实时数仓链路分享:kafka =>SparkStreaming=>kudu集成kerberos Flink CEP 原理和案例详解 ProcessFunction:Flink最底层API使用踩坑记录 Flink 1.10之改进的TaskManager内存模型与配置 打通实时流处理log4j-flume-kafka-structured-streaming 如何设计实时数据平台(设计篇) 如何设计实时数据平台(技术篇) SparkSQL内核解析-执行全过程概述 SparkSQL内核解析之逻辑计划 Flink-1.10中的StreamingFileSink相关特性 Kafka下的生产消费者模式与订阅发布模式 Kafka+Spark Streaming如何保证exactly once语义 Flink之实时统计热门商品的TopN SparkSQL的自适应执行-Adaptive Execution Kafka KSQL实战 ELK+FileBeat+Kafka分布式系统搭建图文教程 HDFS应用场景、原理、基本架构及使用方法 数据模型⽆法复⽤,归根结底还是设计问题 Hadoop支持Lzo压缩配置及案例 快看 | Java连接集成Kerberos的HA HDFS方案 Kafka消费者分区分配策略及自定义分配策略 Spark Streaming整合log4j、Flume与Kafka的案例 面试必知的 Spark SQL 几种 Join 实现 Flink在大规模状态数据集下的checkpoint调优 Write-Ahead Log(WAL预写日志)的工作原理 Kafka常见的导致重复消费原因和解决方案 Spark-submit 参数调优完整攻略 Kafka数据可靠性保证三板斧-ACK/ISR/HW Spark常见错误问题汇总 HBase操作组件:Hive、Phoenix、Lealone Redis系列 | 缓存穿透、击穿、雪崩、预热、更新、降级 Kafka工作流程及文件存储机制 Redis6.0主从、哨兵、集群搭建和原理 Spark Streaming官方编程指南 【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目 Spark+Kudu的广告业务项目实战笔记(一) 大数据入门:Spark+Kudu的广告业务项目实战笔记(二) 大数据入门:Spark+Kudu的广告业务项目实战笔记(三) 大数据入门:Spark+Kudu的广告业务项目实战笔记(四) 大数据入门:Spark+Kudu的广告业务项目实战笔记(五) 大数据入门:Spark+Kudu的广告业务项目实战笔记(六) Flink 1.11新特性之SQL Hive Streaming简单示例 SparkSQL 整体运行架构和底层实现 02 离线计算篇 ORC文件存储格式的深入探究 Hadoop支持Lzo压缩配置及案例 神策数据分享 | 标签体系应用与建设(文末附下载链接) 环形缓冲区-Hadoop Shuffle过程中的利器 eBay | 实践Hadoop任务的性能翻倍之路 PDFT/Paxos/Raft-分布式一致性协议解析 谈谈经典限流方法—漏桶、令牌桶与Guava RateLimiter的实现 轻量级异步屏障快照(ABS)算法解析 Hadoop小文件利器Ozone 数据指标体系建设 Hbase FAQ热门问答小集合 设计HBase RowKey需要注意的二三事 HBase优化笔记 HBase生产环境优化不完全指南 Hive SQL50道练习题 Hive on Spark参数调优小结 Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效) ConcurrentHashMap锁机制进化的考量 HBASE列族不能太多的真相 基于ClickHouse的用户行为分析实践 HBase的系统架构全视角解读 Kylin Cube构建原理+调优 Hadoop支持Lzo压缩配置及案例 Apache Hudi 架构设计和基本概念 HiveSQL常用优化方法全面总结 MapReduce性能优化大纲 从NoSQL运动谈分布式系统的CAP、BASE理论 HDFS读写数据过程原理分析 数据中台建设五步法 Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合 一篇文章全面了解监控知识体系 Sqoop 使用shell命令的各种参数的配置及使用方法 Hive小知识之分桶抽样 数据仓库和数据集市建模体系化总结 Phoenix(云HBase SQL)核心功能原理及应用场景介绍 基于实际业务场景下的Flume部署 斗转星移 | 三万字总结Kafka各个版本差异 Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用 SparkSQL用UDAF实现Bitmap函数 一文了解Kafka核心概念和角色 Apache Spark 内存管理详解 经典限流方法——漏桶、令牌桶与Guava RateLimiter的实现 ZooKeeper在HBase集群中的作用 从B+树到LSM树,及LSM树在HBase中的应用 Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解 干掉ELK | 使用Prometheus+Grafana搭建监控平台 盘点:SQL on Hadoop中用到的主要技术 用HiveSQL计算连续天数问题的方法 浅谈Linux cgroup机制与YARN的CPU资源隔离 京东JDHBase异地多活实践 Kafka的分区数是不是越多越好? 一文俯瞰Elasticsearch核心原理 不可不说的Java"锁"事 03 数据仓库篇 《一文了解数据库和数据仓库》 数据仓库系统的实现与使用(含OLAP重点讲解) Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析 数据也有温度?Elasticsearch 5.x 版本中的冷热数据架构 数据冷热分离技术 冷热数据分离 | Alluxio元数据管理策略 数据之眼 | 数据探查服务的设计 元数据存储系统管理演变升级 数据湖 | 一文读懂Data Lake的概念、特征、架构与案例 用户行为数据采集系统 创业公司数据仓库的建设 Kylin使用Spark构建Cube 实时统计分析系统-Apache Druid Elasticsearch索引和检索优化与压测监控总结 04 企业面试篇 我们常说的海量小文件的根源是什么? 如果你在准备面试,好好看看这130道题 你可能需要知道的Kafka面试题与部分答案整理 28道关于ZooKeeper的面试题 【数据白皮书重磅分享】推荐|埋点|用研|标签 一份优秀的简历该长成什么样 1万2千字长文助力春招 | Netty面试篇 消息队列面面观 关于技术面试的一点点体会 早点建立自己的知识体系 Filter(过滤)|Project(映射)|Pushdowns(谓词下推) 阅读源码|Spark 与 Flink 的 RPC 实现 三万六千字通关MySQL面试 深入理解CAP理论和适用场景 HDFS的SecondaryNameNode作用,你别答错了 Kafka三种可视化监控管理工具Monitor/Manager/Eagle Kafka体系架构详细分解 Kafka笔记—可靠性、幂等性和事务 Kafka体系架构详细分解 Kafka面试题系列(进阶篇) Kafka面试题系列(基础篇) 面试知识点 | Kafka的数据存储与索引设计 面试必考点:HBase Compaction机制 ZooKeeper需要关注的点 MySQL中InnoDB及索引深入剖析 Kafka面试题系列(进阶篇2) MySql的Binlog日志工具分析:Canal、Maxwell、Databus、DTS Redis中的管道Pipeline操作 查看YARN任务日志的几种方式 Yarn 使用 Cgroup 实现任务资源限制 分析和定位线上作业 OOM 问题利器-MAT 浅谈ZooKeeper中Kafka相关信息的存储 JVM架构体系与GC命令小总结 05 O L A P 篇 腾讯如何用Elasticsearch挖掘万亿数据价值? Apache Beam 大数据处理一站式分析 Apache Hudi 架构设计和基本概念 Apache Hudi 架构设计和基本概念 06 其 他 MySQL8.0发布,你熟悉又陌生的Hash Join? 转载一个看不懂的文章:F1 Query Apache Hudi | 统一批和近实时分析的增量处理框架 寻找5亿次访问中,访问次数最多的人 聊聊阿里巴巴的全链路压测 年轻人你渴望力量吗 | 我读过的一些书推荐 数据算法之反转排序 | 寻找相邻单词的数量 MySQL Binlog同步HDFS的方案 循环查询数据的性能问题及优化 推荐系统 embedding 技术实践总结 Prometheus+Clickhouse实现业务告警 亿级用户的分布式数据存储解决方案 基于大数据的用户画像构建小百科全书 魅族持续交付平台建设实践