从0开始学大数据总结笔记： 3、大数据平台与系统集成

最新推荐文章于 2024-06-14 13:02:43 发布

qililong88

最新推荐文章于 2024-06-14 13:02:43 发布

阅读量929

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qililong88/article/details/105146718

版权

大数据专栏收录该内容

12 篇文章 1 订阅

订阅专栏

在这里插入图片描述
1、大数据平台由上到下，可分为三个部分：数据采集、数据处理、数据输出与展示。

数据采集将应用程序产生的数据和日志等同步到大数据系统中，由于数据源不同，这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop（Sqoop适合离线批量导入关系数据库的数据，Canle适合实时导入关系数据库的数据。），日志同步可以选择 Flume，打点采集的数据经过格式化转换后通过 Kafka 等消息队列进行传递。不同的数据源产生的数据质量可能差别很大，数据库中的数据也许可以直接导入大数据系统就可以使用了，而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。

数据处理这部分是大数据存储与计算的核心，数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等计算任务读取 HDFS 上的数据进行计算，再将计算结果写入 HDFS。MapReduce、Hive、Spark 等进行的计算处理被称作是离线计算，HDFS 存储的数据被称为离线数据。在大数据系统上进行的离线计算通常针对（某一方面的）全体数据，比如针对历史上所有订单进行商品的关联性挖掘，这时候数据规模非常大，需要较长的运行时间，这类计算就是离线计算。除了离线计算，还有一些场景，数据规模也比较大，但是要求处理的时间却比较短。比如淘宝要统计每秒产生的订单数，以便进行监控和宣传。这种场景被称为大数据流式计算，通常用 Storm、Spark Steaming 等流式大数据引擎来完成，可以在秒级甚至毫秒级时间内完成计算。

数据输出与展示前面我说过，大数据计算产生的数据还是写入到 HDFS 中，但应用程序不可能到 HDFS 中读取数据，所以必须要将 HDFS 中的数据导出到数据库中。数据同步导出相对比较容易，计算产生的数据都比较规范，稍作处理就可以用 Sqoop 之类的系统导出到数据库。这时，应用程序就可以直接访问数据库中的数据，实时展示给用户，比如展示给用户关联推荐的商品。淘宝卖家的量子魔方之类的产品，其数据都来自大数据计算产生。除了给用户访问提供数据，大数据还需要给运营和决策层提供各种统计报告，这些数据也写入数据库，被相应的后台系统访问。

2、大小公司可采取的方案：
大公司：
1）淘宝：

在这里插入图片描述
2）美团：

3）滴滴：

小公司：
1）CDH大数据集成平台：

系统集成：数据库导入导出用 Sqoop，日志导入导出用 Flume，其他实时数据导入导出用 Kafka。
大数据存储：文件系统用 HDFS，结构化数据用 Kudu，NoSQL 存储用 HBase，其他还有对象存储。
统一服务：资源管理用 Yarn，安全管理用 Sentry 和 RecordService 细粒度地管理不同用户数据的访问权限。
过程、分析与计算：批处理计算用 MapReduce、Spark、Hive、Pig，流计算用 Spark Streaming，快速 SQL 分析用 Impala，搜索服务用 Solr。
2）大数据云：阿里云的数加
3）大数据 SaaS：友盟、神策、百度统计这样的大数据 SaaS 服务商，将它提供的 SDK 打包到自己的程序包中，就可以自动采集各种数据，传输到他们的大数据平台。

qililong88

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从0开始学大数据总结笔记： 3、大数据平台与系统集成

1、大数据平台由上到下，可分为三个部分：数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中，由于数据源不同，这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop（Sqoop适合离线批量导入关系数据库的数据，Canle适合实时导入关系数据库的数据。），日志同步可以选择 Flume，打点采集的数据经过格式化转换后通过 Kafka 等消息...
复制链接

扫一扫

专栏目录