大数据最全初识Hadoop(1),金三银四大厂面经总结

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

2. 类型多样(Variety)

大数据受大量互联网用户等因素的影响,来源广泛,因此大数据的类型也多种多样。大数据按因果关系强弱可分为三类,即结构化数据、半结构化数据和非结构化数据,统称为大数据。

3.价值密度(Value)

大数据价值在大数据特征中占有核心地位。大数据的总量与其价值密度成反比。同时,任何有价值的信息都是经过大量基础数据处理后提取出来的。在大数据蓬勃发展的今天,如何提高计算机算法处理海量大数据并提取有价值信息的速度一直是人们探索的问题。

4. 高速(Velocity)

大数据的高速特性主要体现在数据量的快速增长和处理。与传统媒体相比,在大数据时代的今天,信息的生产和传播发生了巨大的变化。在互联网和云计算的影响下,大数据可以快速产生和传播。

二.结构化数据、半结构化数据和非结构化数据

1.结构化数据

结构化数据一般是指可以使用关系型数据库来进行表示和存储,可以用二维表来逻辑表达实现的数据。通俗来讲,带有结构,有序的数据统称为结构化数据,例如我们平常使用的Excel,mysql,数字,符号等等

2.半结构化数据

半结构化数据是结构化数据的一种形式,半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。例如HTML文档,JSON,XML和一些NoSQL数据库等就属于半结构化数据。

3.非数据化数据库

非结构化数据顾名思义,就是没有固定结构的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等都属于非结构化数据。

三.Hadoop的优势

  1. 扩容能力强
  2. 成本低
  3. 高效率
  4. 可靠性
  5. 高容错性

四.Hadoop生态圈

指以Hadoop为基础的生态圈,是一个很庞大的体系,Hadoop只是其中最重要、最基础的一部分;生态圈中的每个子系统只负责解决某一个特定的问题区域,甚至可能更小,它并不是一个全能系统,而是多个小的系统的集成。Hadoop生态圈的构成如下图:

五.Hadoop HDFS架构

HDFS(Hadoop Distribute File System)分布式文件系统

分布式文件系统 distributed file system 是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间。分布式文件系统的设计基于客户机/服务器模式

HDFS架构图如下图所示:

HDFS优势:

1、可构建在廉价机器上,设备成本相对低

2、高容错性

3、适合批处理

4、适合存储大文件

HDFS劣势:

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

628)**

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值