一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

今天起我们开始正式学习大数据的专业知识,之前的Java学习,我们一直不断地沉淀自己,希望大家在大数据的学习中可以解决之前疑惑,为什么要学习java。

我们也写了一篇文章去讲解,如果还有疑惑,那就记得回顾一下哟~我们之后也会对之前的文章进行更多的补充。一起来学大数据|为何学习大数据,要先学Java?之茅塞顿开

大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:868加上【八四七】最后735  一起讨论进步学习
 

学习Hadoop的铺垫

  1. 会IO
  2. 理解socket
  3. 理解RPC
  4. 会迭代器
  5. 理解序列化
  6. 会Linux
  • 理解PATH
  • 会启动一个Java程序

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

上面就是在学习hadoop之前,我们需要准备的知识,标注会的要大家可以自行写出,理解的内容我们要知道为什么这个做,什么时候做这些事。大家可以翻阅之前的系列文章查看,之后我们也会在大数据学习强化之前的文章内容。

什么是大数据

大数据?大家是怎么理解的。难道大就是大数据么?大有意义吗?在我们当今的互联网时代,大量的用户行为会产生数据,包括我们在手机上所有的网络请求都会记载下来,这些数据每天都会新增加很多,T级别。网络上给出了这样的解释。

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

其实,准确的说大数据是我们将海量TB级别的数据分析处理后的数据。当数据分析面对的是海量(1T以上)的数据时,普通技术手段难以胜任,就需要更强大的技术手段来实现:

  • 存储:分布式文件系统HDFS,可以存储海量文件
  • 运算分析:分布式运算程序MapReduce,可以分布式地并行处理数据
  • 分布式运算程序的运行调度:YARN

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

什么HDFS

大数据技术的核心,其实就是解决海量数据场景下的数据存储运算问题;而海量数据场景下的数据存储和运算的核心技术又是:分布式技术

Hadoop权威指南:大数据的存储与分析(第4版)

¥124.6

购买

HDFS分布式文件系统会将用户提交的文件存储在一个服务器集群中,如下图所示

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

海量文件管理系统的设计

在HDFS中有两个十分重要的服务器角色:

第一个、datanode用来负责存储用户文件的块

第二个、namenode用来负责记录用户存储的文件的虚拟路径,以及文件每一个块的具体位位置

换句话说是,这样子的

一起来学大数据|千呼万唤始出来的大数据技术,Hadoop与HDFS

 

这就是我们今天的内容,学习了大数据之前的准备知识以及对分布式文件系统的简单介绍。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值