原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

最新推荐文章于 2024-08-15 09:37:59 发布

Hadoop技术博文

最新推荐文章于 2024-08-15 09:37:59 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/b6ecl1k7BS8O/article/details/101237755

版权

很多人在学习大数据的时候比较迷茫，不知从何学起，也不能够比较系统、全面的了解大数据框架。为此，过往记忆花了一个周末的时间把 Awesome Big Data （https://github.com/onurakpolat/awesome-bigdata）里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍，供大家查漏补缺，全面学习，强烈建议收藏。更多大数据技术知识学习，请持续关注【过往记忆大数据】微信公众号。

关系型数据库管理系统

MySQL 世界上最流行的开源数据库。
PostgreSQL 世界上最先进的开源数据库。
Oracle Database - 对象关系数据库管理系统。
Teradata - 高性能 MPP 数据仓库平台。

框架

Bistro - 用于批处理和流分析的通用数据处理引擎。它基于一种新的数据模型，该模型通过函数来表示数据，并通过列操作来处理数据，而不仅仅使用 MapReduce 或 SQL 等传统方法来设置操作。
IBM Streams - 分布式处理和实时分析平台。可以和大数据生态系统中的许多流行技术 (Kafka、HDFS、Spark等) 集成
Apache Hadoop -分布式处理框架。集成了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统)。
Tigon - 高吞吐的实时流处理框架。
Pachyderm - Pachyderm 是一个基于 Docker 和 Kubernetes 的数据存储平台，可以用在重复的数据处理和分析场景。
Polyaxon - 一个可复制、可扩展的机器学习和深度学习平台。

分布式编程

AddThis Hydra - 分布式数据处理和存储系统，最初由 AddThis 开发。
AMPLab SIMR - 在 Hadoop MapReduce v1 上运行 Spark。
Apache APEX - 用于大数据流和批处理的统一企业平台。
Apache Beam - 用于定义和执行数据处理工作流的统一模型和一组特定于语言的sdk。
Apache Crunch - 一个简单的Java API，用于处理 Join 和数据聚合之类的任务，这些任务在普通 MapReduce 上实现起来很繁琐。
Apache DataFu - 由 LinkedIn 为 Hadoop 和 Pig 开发的用户定义函数的集合。
Apache Flink - 分布式处理引擎框架，用于在无界和有界数据流上进行有状态计算。
Apache Gearpump -基于 Akka 的实时大数据流引擎。
Apache Gora - 内存数据模型和持久性框架。
Apache Hama - BSP(Bulk Synchronous Parallel)计算框架。
Apache MapReduce -在集群上使用并行分布式算法处理大型数据集的编程模型。
Apache Pig - 用于表达 Hadoop 数据分析程序的高级语言。
Apache REEF - 用来简化和统一低层大数据系统的保留性评估执行框架
Apache S4 - 一个常规用途的、分布式的、可伸缩的、容错的、可插入式的平台，主要用于处理连续的数据流
Apache Spark - 快速、通用的大规模数据处理引擎
Apache Spark Streaming - 实时流处理引擎，属于 Spark 的一部分.
Apache Storm - Twitter 开发的，可在 YARN 上进行流处理的框架。
Apache Samza -基于 Kafka 和 YARN 的流处理的框架
Apache Tez - 基于 YARN 的，可执行复杂 DAG (有向无环图)任务的应用程序框架。
Apache Twill - YARN 上的抽象，减少了开发分布式应用程序的复杂性。
Baidu Bigflow - 一个允许编写分布式计算程序的接口，它提供了许多简单、灵活、强大的 API 来轻松处理任何规模的数据。
Cascalog - 数据处理和查询库。
Cheetah - MapReduce 之上的高性能，用户自定义数据仓库。
Concurrent Cascading - Hadoop 上的数据管理/分析框架。
Damballa Parkour - 为 Clojure 开发的 MapReduce 库。
Datasalt Pangool - 可替代 MapReduce 范式.
DataTorrent StrAM -实时计算引擎，旨在以一种尽可能畅通的方式支持分布式、异步、实时的内存大数据计算，同时最小化开销和对性能的影响。
Facebook Corona - Hadoop 的增强，可以消除单点故障。
Facebook Peregrine - Map Reduce 框架.
Facebook Scuba - 分布式内存数据存储。
Google Dataflow - 创建数据管道来帮助我们摄取、转换和分析数据。
Google MapReduce - map reduce 框架.
Google MillWheel - 容错流处理框架。
IBM Streams - 用于分布式处理和实时分析的平台。提供开箱即用的高级分析工具包，如地理空间，时间序列等。
JAQL - 声明式编程语言，用于处理结构化、半结构化和非结构化数据。
Kite - 一组库、工具、示例和文档，重点在于简化在 Hadoop 生态系统之上构建系统的过程。
Metamarkets Druid - 用于实时分析大型数据集的框架。
Netflix PigPen - 是 Clojure 语音的 Map-Reduce，可以编译到 Apache Pig 或者 Cascading 中
Nokia Disco - 诺基亚开发的 MapReduce 框架。
Onyx - 云的分布式计算。
Pinterest Pinlater - 异步作业执行系统。
Pydoop - 用 Python 编写，并采用 MapReduce 和 HDFS 技术对 Hadoop 进行扩展的 API。
Ray - 用于构建和运行分布式应用程序的快速而简单的框架。
Rackerlabs Blueflood - 多租户分布式度量处理系统
Skale - NodeJS 上的高性能分布式数据处理框架。
Stratosphere - 通用集群计算框架。
Streamdrill - streamdrill 在计算不同时间窗口上的事件流活动非常有用，并找出最活跃的时间窗口。
streamsx.topology - 用于在 Java，Python 或 Scala 中构建 IBM Streams 应用程序的库。
Tuktu - 易于使用的批处理和流式计算平台，可以使用 Scala，Akka 和 Play 构建！
Twitter Heron - 由 Twitter 开发的一个实时、分布式、容错的流处理引擎，主要用于代替 Storm。
Twitter Scalding - 用于 Map Reduce 作业的 Scala 库，基于 Cascading 构建。
Twitter Summingbird - Summingbird 是一个类库，它允许我们编写看起来像原生 Scala 或 Java 集合转换的 MapReduce 程序，并在许多着名的分布式 MapReduce 平台上执行，包括 Storm 和 Scalding，由 Twitter 开发。
Twitter TSAR - Twitter 开发的时间序列聚合器
Wallaroo - 超快弹性数据处理引擎，可以使有状态、分析、流处理和事件驱动的 AI 应用程序能够快速投入生产，而无需考虑规模。它为开发人员提供了几种语言的 api 来实现他们的自定义业务逻辑。