一,大数据的概念
- 从字面上可以理解,大数据就是数据量比较大,用传统的工具处理不了。
- 大数据的数据量复杂,多样性。例如 数据包括 图片,视频,文字等。
- 速度快。通过分布式存储,分布式计算,云计算等工具进行快速的处理。
- 具有高度分析的新价值。通过海量的数据,进行分析判断,为个人或者企业的行动作出决策。
二,大数据带来的技术变革
- 存储:文件存储==》分布式存储
- 计算:单机==》分布式计算
- 网络:万兆
- 数据库:关系型数据库==》nosql(Redis,Mogodb…)
- 数据采集:Flume,Sqoop
- 数据存储,分析,挖掘,处理:Hadoop,Spark,Flink…
三,Hadoop介绍
- Hadoop命名的由来。作者的孩子给一个玩具起的名字,读音比较好记。
- Hadoop是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度平台(YARN)。它主要实现下面的三个模块。
- 分布式文件系统:HDFS实现将文件分布式存储在很多的服务器上。
1,支持大规模文件存储 一个大文件可以拆分成若干个文件块,不同的文件块分发到不同的节点上。
2,简化系