今天给大家推荐一位我粉了好几年的朋友,江湖名字:过往记忆。关于他的博客,对大数据感兴趣的朋友可能没几个不知道的。
大家可以百度搜索一下关键字【过往记忆大数据】,或者直接输入网址:https://www.iteblog.com/。看一下博客文章目录,这些99%都是他原创的,而且是他一个人写的,简直是技术圈里面的战斗机!
2014年,他创建了微信公众号,最开始的名字是:Hadoop技术博文,今年统一博客改名:过往记忆大数据。
近期他整理了他这几年来在公众号上面写的原创文章,包含Spark、Hadoop、HBase、Flink 、Kafka、CarbonData、Hive、ElasticSearch、大数据架构、分布式原理等,从入门到进阶,知识体系相当强大,强烈建议收藏!!(关注过往记忆大数据公众号,回复666,即可获取这份高质量原创文章合集。)
Spark篇
1、Spark & Alluxio在网易严选架构演进中的实践和探索
3、深入理解 Spark Delta Lake 的诞生及其工作原理
8、深入理解 Spark SQL 查询引擎9、Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
10、Koalas: 让 pandas 开发者轻松过渡到 Apache Spark
11、.NET for Apache Spark 预览版正式发布
12、重磅 | Apache Spark 社区期待的 Delta Lake 开源了
13、Apache Spark 2.4 回顾以及 3.0 展望
14、SHC:使用 Spark SQL 高效地读写 HBase
16、Apache Spark 未来:Spark 3.0 预览
17、Apache Spark 3.0 将内置支持 GPU 调度,文末有福利
19、eBay:将60PB的MPP DBMS迁移至Spark的经验
20、Apache Spark 2.4 内置的 Avro 数据源实战
21、Apache Spark Shuffle I/O 在 Facebook 的优化
23、Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
24、SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
25、MapReduce作业大规模迁移Apache Spark在百度的实践
26、Apache Spark 2.4 正式发布,重要功能详细介绍
27、即将发布的 Apache Spark 2.4 都有哪些新功能
28、Spark+AI Summit Europe 2018 PPT下载[共95个]
29、Spark Summit North America 201806 全部PPT下载[共147个]
31、Spark Streaming 反压(Back Pressure)机制介绍
33、干货 | Apache Spark 2.0 作业优化技巧
35、Waterdrop:构建在Spark之上的简单高效数据处理系统
36、如何在 Hadoop 2.2.0 环境下使用 Spark 2.2.x
37、Spark作业如何在无管理权限的集群部署Python或JDK
38、Apache Spark 黑名单(Blacklist)机制介绍
39、Spark Summit 2017 Europe全部PPT及视频下载[共69个]
40、干货 | Apache Spark三大API:RDD、DataFrame和Dataset,我该如何选择
42、MMLSpark:微软开源的用于Spark的深度学习库
44、如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
46、持续了半年的开发,Apache Spark 2.2.0今天正式发布
47、Spark Summit 2017全部PPT下载[共143个]
48、2017年Apache Spark两大发展方向:深度学习和提升实时流性能
50、如何优雅地终止正在运行的Spark Streaming程序
51、[资料]Spark Summit East 2017高清视频和PPT
52、Apache Spark 2.1.0正式发布,Structured Streaming有重大突破
54、Spark Summit 2016 Europe全部PPT下载[共75个]
55、[Matei Zaharia]使用Apache Spark 2.0简化大数据应用程序开发
56、Apache Spark 2.0.1稳定版正式发布,可以考虑在线上使用啦
57、Hadoop&Spark解决二次排序问题(Hadoop篇)
58、Apache Spark 2.0.0正式发布及其更新介绍
59、Spark 2.0介绍:Spark SQL中的Time Window使用
60、Spark 2.0介绍:Catalog API介绍和使用
62、Spark Summit 2016 San Francisco PPT免费下载[共95个]
66、Spark 2.0介绍:SparkSession创建和使用相关API
69、自定义Spark Streaming接收器(Receivers)
70、Spark Streaming和Kafka整合是如何保证数据零丢失
71、Apache Spark DataFrames入门指南:操作DataFrame
74、Spark社区可能放弃Spark 1.7而直接发布Spark 2.x
75、Spark分区器HashPartitioner和RangePartitioner代码详解
77、通过spark-redshift工具包读取Redshift上的表
78、Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展机器学习库
79、Hadoop&Spark解决二次排序问题(Hadoop篇)
80、如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
Hadoop篇
1、Apache Hadoop 的 HDFS federation 前世今生
6、Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
10、Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
11、Apache Hadoop 3.0.0-beta1 正式发布,2017-11-01发布GA版即可在线上使用
12、Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
13、Hadoop集群字符集编码不一致导致Reduce重复记录问题排查
14、如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
17、使用CombineFileInputFormat来优化Hadoop小文件
21、Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
22、Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
23、Hadoop&Spark解决二次排序问题(Hadoop篇)
HBase篇
4、HBase 入门之数据刷写(Memstore Flush)详细说明
6、为了让你更全面的了解Apache HBase,我们做了这本专刊
10、HBase 多租户隔离技术:RegionServer Group 介绍及实战
11、OpenTSDB 底层 HBase 的 Rowkey 是如何设计的
13、Apache HBase中等对象存储MOB压缩分区策略介绍
Flink 篇
1、Flink Forward 201904 PPT资料下载
2、Flink Forward 201812 PPT资料下载
7、Apache Flink 1.6.0 正式发布,涵盖多项重要更新
8、Apache Flink 1.5.0 正式发布,多项重要更新
10、Tumbling Windows vs Sliding Windows区别与联系
11、Flink Forward 201709所有PPT资料下载
12、如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
13、Apache Flink 1.3.0正式发布及其新功能介绍
14、[干货]Flink Forward 201704所有PPT资料下载
16、Flink Table和SQL API:为统一批处理和流处理而设计
17、Apache Flink 1.2.0正式发布及其功能介绍
18、Flink可查询状态Queryable State:替换你的数据库
19、Apache Flink 1.1.0和1.1.1发布,支持SQL
23、Tumbling Windows vs Sliding Windows区别与联系
24、[干货]Apache Flink 1.2.0新功能概述
Kafka篇
3、Kafka创建Topic时如何将分区放置到不同的Broker中
4、重磅消息:Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供
5、Kafka分区分配策略(Partition Assignment Strategy)
6、Apache Kafka 2.0.0 正式发布,多项重要功能更新
7、如何为Kafka集群选择合适的Topics/Partitions数量
8、图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
9、Apache Kafka消息格式的演变(0.7.x~0.10.x)
10、Kafka创建Topic时如何将分区放置到不同的Broker中
11、Kafka分区分配策略(Partition Assignment Strategy)
12、Key为nulll时Kafka如何选择分区(Partition)
15、Kafka实战:七步将RDBMS中的数据实时传输到Hadoop
16、Kafka Producer是如何动态感知Topic分区数变化
18、Kafka集群Leader均衡(Balancing leadership)
19、Apache Kafka 0.10.0.0稳定版发布及其新特性介绍
CarbonData 篇
1、翻译 | Apache CarbonData 最新版中文文档发布
2、Apache CarbonData 1.0.0发布及其新特性介绍
3、Apache CarbonData的Update/Delete功能设计实现
4、Apache CarbonData性能基准报告:查询性能秒杀Parquet
6、CarbonData:华为开发并支持Hadoop的列式文件格式
Hive篇
1、Apache Hive 联邦查询(Query Federation)
3、Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展机器学习库
ElasticSearch 篇
1、Open Distro for Elasticsearch:AWS 自家版本的开源 ElasticSearch
2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了
大数据架构
4、盘点2018年晋升为Apache TLP的大数据相关项目
5、盘点2017年晋升为Apache TLP的大数据相关项目
分布式原理
其他
7、Apache Beam发布第一个稳定版,适用于企业的部署
11、下一代大数据处理平台Apache Beam成为Apache顶级项目
13、Scala的Option monad和C#的null-conditional操作符比较
(点击标题可直达对应文章,这只是他分享的一部分,完整版欢迎访问他的博客:https://www.iteblog.com/。关注【过往记忆大数据】公众号,回复666)
他跟我说,这是第一个五年,后面还有下一个、下下一个五年,他会持续分享,欢迎持续关注!!