简单学习与理解Hadoop

什么是大数据?什么是hadoop?
摘要由CSDN通过智能技术生成

一、为什么要学习大数据?

在我们日常的生活和工作中,身边发生的事都可以是数据,比如你是用手机购物、打车这样的行为数据都会被所使用APP公司所收集,记录了你的行为数据后,就可以推断你喜欢的从而进行精准的推荐。

但是每个人每天产生的数据那么多,公司的用户也越来越多,产生的数据也就量级增加,首先碰到的问题就是这么多的数据,要存在哪里?因为数据已经多到当前服务器磁盘都存不下了。

         在最开始,大部分人选择扩展存储空间来解决这个问题,随着扩展的空间越大,所要付出的成本也是量级的增加。后来随着分布式服务的发展,就有人想到如果我的存储也用分布式来做,那样我不就可以用多台机器分别存储一部分数据来降低我主服务器的压力。但是怎么才能让数据进行分布式存储呢?那不同机器之间的数据都不同,用户要访问某一资源要怎么来访问呢?

二、为是么要使用 hadoop ?

最开始,谷歌公司提出了他们的解决方案,使用GFS(谷歌的分布式文件系统)和MapReduce(分布式计算框架)。但是谷歌不开源,后来 Doug Cutting 就根据谷歌发表的论文,带领团队提出了一套他们的解决方案——hadoop。hadoop完全开源,Doug Cutting 也将其交给 apach 基金会。

三、怎么学习 hadoop ?

1、数据分析步骤:

采集数据、分析数据、应用数据。

2、大数据

特征:5v(volumme数据体量大、variety种类多样化、value低价值密度、velocity速度快、veracity数据的质量)。

3、hadoop 简介

我们现在学习的hadoop版本是3.X。

在3的版本中,hadoop主要是分为三块内容:HDFS、YARN、MapReduce。

4、HDFS shell命令行

HDFS 的命令大多是与Linux命令类似。这里就直接做总结了。

  • 文件系统访问:
hadoop fs -ls file:///         本地文件系统
hadoop fs -ls hdfs://IP:PORT   hadoop文件系统

可以用 ls 来展示所有的文件

注意:(1)这里使用的是 fs 而不是 dfs 或者 hdfs ,是因为 hdfs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值