今天起我们开始正式学习大数据的专业知识,之前的Java学习,我们一直不断地沉淀自己,希望大家在大数据的学习中可以解决之前疑惑,为什么要学习java。
我们也写了一篇文章去讲解,如果还有疑惑,那就记得回顾一下哟~我们之后也会对之前的文章进行更多的补充。一起来学大数据|为何学习大数据,要先学Java?之茅塞顿开
大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:868加上【八四七】最后735 一起讨论进步学习
学习Hadoop的铺垫
- 会IO
- 理解socket
- 理解RPC
- 会迭代器
- 理解序列化
- 会Linux
- 理解PATH
- 会启动一个Java程序
上面就是在学习hadoop之前,我们需要准备的知识,标注会的要大家可以自行写出,理解的内容我们要知道为什么这个做,什么时候做这些事。大家可以翻阅之前的系列文章查看,之后我们也会在大数据学习强化之前的文章内容。
什么是大数据
大数据?大家是怎么理解的。难道大就是大数据么?大有意义吗?在我们当今的互联网时代,大量的用户行为会产生数据,包括我们在手机上所有的网络请求都会记载下来,这些数据每天都会新增加很多,T级别。网络上给出了这样的解释。
其实,准确的说大数据是我们将海量TB级别的数据分析处理后的数据。当数据分析面对的是海量(1T以上)的数据时,普通技术手段难以胜任,就需要更强大的技术手段来实现:
- 存储:分布式文件系统HDFS,可以存储海量文件
- 运算分析:分布式运算程序MapReduce,可以分布式地并行处理数据
- 分布式运算程序的运行调度:YARN
什么HDFS
大数据技术的核心,其实就是解决海量数据场景下的数据存储和运算问题;而海量数据场景下的数据存储和运算的核心技术又是:分布式技术
HDFS分布式文件系统会将用户提交的文件存储在一个服务器集群中,如下图所示
海量文件管理系统的设计
在HDFS中有两个十分重要的服务器角色:
第一个、datanode用来负责存储用户文件的块
第二个、namenode用来负责记录用户存储的文件的虚拟路径,以及文件每一个块的具体位位置
换句话说是,这样子的
这就是我们今天的内容,学习了大数据之前的准备知识以及对分布式文件系统的简单介绍。