Hadoop家族

Hadoop家族

一、文档资料

Hadoop家族以及资料:https://www.zhihu.com/question/19795366

新手学习入门指南:https://www.aboutyun.com//forum.php/?mod=viewthread&tid=6179&extra=page%3D1&page=1&

HIVE表基本操作:https://www.cnblogs.com/tkzm/p/11467054.html

 

 

二、学习笔记

  1. Hadoop是什么?

    Hadoop其实就是一个用来处理大数据的分布式系统基础架构由其之后衍生出来的很多Hadoop家族产品,都是基于这个框架来做的,包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

     

  2. HDFS,MapReduce和yarn

    HDFS: Hadoop Distributed File System  分布式文件系统

    YARN: Yet Another Resource Negotiator   资源管理调度系统

    Mapreduce:分布式运算框架

  3.  

 

 

 

三、HIVE

hive是对于Hadoop数仓操作的一种工具,也是Hadoop家族里面的一员。hive的基本库表操作其实类似sql语句,我们写入sql语句然后通过hive转换为mapreduce语言再对hadoop进行操作。

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列的1:具进行数据提取转化加载,用来存储、查询和分析存储在Hadoop中的大规模数据集,并支持UDF(User-Defined Function)、UDAF(User-Defnes AggregateFunction)和UDTF(User-Defined Table-Generating Function),也可以实现对map和reduce函数的定制,为数据操作提供了良好的伸缩性和可扩展性。 [2] 
hive不适合用于联机(online)事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。hive的特点包括:可伸缩(在Hadoop的集群上动态添加设备)、可扩展、容错、输入格式的松散耦合。

数据库(DDL,DML,DQL、DCL)

1、数据查询语言DQL

  数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE

    子句组成的查询块:
    SELECT <字段名表>   FROM <表或视图名>   WHERE <查询条件>

2、数据操纵语言DML

  数据操纵语言DML主要有三种形式:

   1) 插入:INSERT
   2) 更新:UPDATE

   3) 删除:DELETE

3、数据定义语言DDL

  数据定义语言DDL用来创建数据库中的各种对象-----表、视图、

  索引、同义词、聚簇等如:
       CREATE TABLE(表)/VIEW(视图)/INDEX(索引)/SYN(同义词)/CLUSTER(簇)

4、数据控制语言DCL

  数据控制语言DCL用来授予或回收访问数据库的某种特权,并控制
  数据库操纵事务发生的时间及效果,对数据库实行监视等。如:

  1) GRANT:授权。
  2) ROLLBACK [WORK] TO [SAVEPOINT]:回退到某一点。
    回滚---ROLLBACK
    回滚命令使数据库状态回到上次最后提交的状态。其格式为:
    SQL>ROLLBACK;
  3) COMMIT [WORK]:提交。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值