【大数据处理架构】0.综述-资料楼

这篇博客介绍了大数据处理的概述,强调大数据的价值在于提取商业价值和决策参考。讨论了大数据分析的四个步骤,并列举了相关工具如Hadoop、HDFS、Spark、Cassandra等。还提到了Hadoop的组件、Hive的数据仓库功能、HBase的实时读写以及Mahout的机器学习。此外,讨论了大数据处理中使用的语言,如Scala、Go和Python,并提供了丰富的参考资料和学习资源。
摘要由CSDN通过智能技术生成

大数据综述

当我们在谈大数据的时候,我们在谈什么?信息爆炸,“大数据“无疑已经成为了最火的关键词,人人都在谈,但是真正落地或者把整个架构玩儿通的人并不多。
要真正深入这个行业,或者训练成为有经验的从业者(数据分析师/架构师)要清楚多个框架,并且不断跟进和学习

下图展示的Big Data 的一个processing。大数据本身不具任何的价值,能从中提取关键的商业价值(commercial acumen/Intelligence)和决策参考才是关键。
这里写图片描述

一般大数据分析(Big data anlysis) 分为四个步骤:
1. Query Processing

2.Summary Statistics

3.Exploration

  1. Modeling

准备

  • 放弃百度,投奔google,在官方网站上看原生文档
  • 放弃window环境, 使用Linux系统,环境配置
  • 大数据平台构建
  • github 开源社区

相关工具(Toollist)

Hadoop

hadoop提供了分布式计算的框架,这个框架下面由许多组件构成(HDFS,分布式文件系统;Yarn,计算调度资源分配;MapReduce 并行计算的编程模型…),共同实现分布式计算。

HDFS

A distributed file system that provides high-throughput access to application data.分布式的文件系统,可以参考Linux的文件系统。

Spark

A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation. Spark 是hadoop的计算引擎,也就是提供了很多计算模型给用户使用,然后分配到hadoop平台上进行分布式计算

Cassandra

多master的数据库(database)</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值