【大数据处理架构】0.综述-资料楼

大数据综述当我们在谈大数据的时候,我们在谈什么?信息爆炸,“大数据“无疑已经成为了最火的关键词,人人都在谈,但是真正落地或者把整个架构玩儿通的人并不多。 要真正深入这个行业,或者训练成为有经验的从业者(数据分析师/架构师)要清楚多个框架,并且不断跟进和学习下图展示的Big Data 的一个processing。大数据本身不具任何的价值,能从中提取关键的商业价值(commercial acumen/
摘要由CSDN通过智能技术生成

大数据综述

当我们在谈大数据的时候,我们在谈什么?信息爆炸,“大数据“无疑已经成为了最火的关键词,人人都在谈,但是真正落地或者把整个架构玩儿通的人并不多。
要真正深入这个行业,或者训练成为有经验的从业者(数据分析师/架构师)要清楚多个框架,并且不断跟进和学习

下图展示的Big Data 的一个processing。大数据本身不具任何的价值,能从中提取关键的商业价值(commercial acumen/Intelligence)和决策参考才是关键。
这里写图片描述

一般大数据分析(Big data anlysis) 分为四个步骤:
1. Query Processing

2.Summary Statistics

3.Exploration

  1. Modeling

准备

  • 放弃百度,投奔google,在官方网站上看原生文档
  • 放弃window环境, 使用Linux系统,环境配置
  • 大数据平台构建
  • github 开源社区

相关工具(Toollist)

Hadoop

hadoop提供了分布式计算的框架,这个框架下面由许多组件构成(HDFS,分布式文件系统;Yarn,计算调度资源分配;MapReduce 并行计算的编程模型…),共同实现分布式计算。

HDFS

A distributed file system that provides high-throughput access to application data.分布式的文件系统,可以参考Linux的文件系统。

Spark

A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation. Spark 是hadoop的计算引擎,也就是提供了很多计算模型给用户使用,然后分配到hadoop平台上进行分布式计算

Cassandra

多master的数据库(database)</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值