【大数据处理架构】0.综述-资料楼

最新推荐文章于 2020-10-24 15:30:15 发布

tintinsnowy

最新推荐文章于 2020-10-24 15:30:15 发布

阅读量804

点赞数

分类专栏：大数据文章标签：大数据架构

本文链接：https://blog.csdn.net/u011613321/article/details/50001541

版权

这篇博客介绍了大数据处理的概述，强调大数据的价值在于提取商业价值和决策参考。讨论了大数据分析的四个步骤，并列举了相关工具如Hadoop、HDFS、Spark、Cassandra等。还提到了Hadoop的组件、Hive的数据仓库功能、HBase的实时读写以及Mahout的机器学习。此外，讨论了大数据处理中使用的语言，如Scala、Go和Python，并提供了丰富的参考资料和学习资源。

摘要由CSDN通过智能技术生成

大数据综述

当我们在谈大数据的时候，我们在谈什么？信息爆炸，“大数据“无疑已经成为了最火的关键词，人人都在谈，但是真正落地或者把整个架构玩儿通的人并不多。
要真正深入这个行业，或者训练成为有经验的从业者（数据分析师/架构师）要清楚多个框架，并且不断跟进和学习

下图展示的Big Data 的一个processing。大数据本身不具任何的价值，能从中提取关键的商业价值（commercial acumen/Intelligence）和决策参考才是关键。
这里写图片描述

一般大数据分析（Big data anlysis）分为四个步骤：
1. Query Processing

2.Summary Statistics

3.Exploration

Modeling

准备

放弃百度，投奔google，在官方网站上看原生文档
放弃window环境, 使用Linux系统，环境配置
大数据平台构建
github 开源社区

相关工具（Toollist）

Hadoop

hadoop提供了分布式计算的框架，这个框架下面由许多组件构成（HDFS，分布式文件系统；Yarn，计算调度资源分配；MapReduce 并行计算的编程模型…），共同实现分布式计算。

HDFS

A distributed file system that provides high-throughput access to application data.分布式的文件系统，可以参考Linux的文件系统。

Spark

A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation. Spark 是hadoop的计算引擎，也就是提供了很多计算模型给用户使用，然后分配到hadoop平台上进行分布式计算