大数据综述
当我们在谈大数据的时候,我们在谈什么?信息爆炸,“大数据“无疑已经成为了最火的关键词,人人都在谈,但是真正落地或者把整个架构玩儿通的人并不多。
要真正深入这个行业,或者训练成为有经验的从业者(数据分析师/架构师)要清楚多个框架,并且不断跟进和学习
下图展示的Big Data 的一个processing。大数据本身不具任何的价值,能从中提取关键的商业价值(commercial acumen/Intelligence)和决策参考才是关键。
一般大数据分析(Big data anlysis) 分为四个步骤:
1. Query Processing
2.Summary Statistics
3.Exploration
- Modeling
准备
- 放弃百度,投奔google,在官方网站上看原生文档
- 放弃window环境, 使用Linux系统,环境配置
- 大数据平台构建
- github 开源社区
相关工具(Toollist)
Hadoop
hadoop提供了分布式计算的框架,这个框架下面由许多组件构成(HDFS,分布式文件系统;Yarn,计算调度资源分配;MapReduce 并行计算的编程模型…),共同实现分布式计算。
HDFS
A distributed file system that provides high-throughput access to application data.分布式的文件系统,可以参考Linux的文件系统。
Spark
A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation. Spark 是hadoop的计算引擎,也就是提供了很多计算模型给用户使用,然后分配到hadoop平台上进行分布式计算
Cassandra
多master的数据库(database)</