大数据架构师必读：常见的七种Hadoop和Spark项目案例

最新推荐文章于 2024-07-26 09:27:09 发布

大数据vvv

最新推荐文章于 2024-07-26 09:27:09 发布

阅读量471

点赞数

分类专栏：大数据 python java 文章标签：大数据程序员编程语言数据分析

本文链接：https://blog.csdn.net/dashujvyu/article/details/89843731

版权

本文介绍了大数据架构中常见的七种Hadoop和Spark项目案例，包括数据整合、专业分析、Hadoop服务化、流分析、复杂事件处理、ETL流和替换或补充SAS系统。这些项目涵盖了从数据整合到实时处理的不同需求，揭示了大数据技术在实际业务中的应用模式。

摘要由CSDN通过智能技术生成

　如果您的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一些与这些新的大数据技术相关的事情，但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同，但根据我的经验，它们是最常见的七种项目。

　　项目一：数据整合

　　称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。这类项目包括从所有来源获得数据源（实时或批处理）并且把它们存储在hadoop中。有时，这是成为一个“数据驱动的公司”的第一步；有时，或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来，HBase和Phoenix在大数据整合方面将大展拳脚，打开一个新的局面，创建出全新的数据美丽新世界。

　　销售人员喜欢说“读模式”，但事实上，要取得成功，你必须清楚的了解自己的用例将是什么（Hive模式不会看起来与你在企业数据仓库中所做的不一样）。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。

　　项目二：专业分析

　　许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域，如在银行领域的流