大数据开发面试题1

本文列举了Hadoop生态圈的三个关键组件:Hive、HBase和Spark,并进行了简要描述。Hive是Facebook开发的数据仓库工具,提供类SQL查询;HBase是适合大数据分析的列存储数据库;Spark是快速、通用的大数据分析引擎,支持多种计算类型。此外,还探讨了数据库中的NULL处理,以及Hive中的split、coalesce和collect_list函数的用法。
摘要由CSDN通过智能技术生成

列举几个hadoop生态圈组件或其他Apache的顶级项目,并做简要的描述

1、hive:
  • hive是由Facebook开发的用于解决海量结构化数据的开源组件
  • hive是基于hadoop的一个数据仓库工具,可以将hdfs中结构化的数据映射为一张表并提供了类SQL查询(将SQL语句转化为MapReduce程序执行)
  • hive处理的数据存放在hdfs中,分析数据底层的实现是MapReduce,执行程序运行在yarn上。
2、HBase
  • HBase是一款适合大数据分析的数据库(按列存储)
  • HBase主要解决快速存储、分布式存储和大量数据分析
3、spark
  • Spark是一种快速、通用、可扩展的大数据分析引擎。
  • spark是基于内存计算的大数据并行计算框架,spark适用于各种原先需要多种不同分布式平台的场景,包括批处理、迭代 算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark使我们可以简单而帝豪的把各种处理流程 整合在一起。

简要描述数据库中的 null,说出null在hive底层如何存储,并解释selecta.* from t1 a left outer join t2 b on a.id=b.id where b.id =null;

null与 任何值运算的结果都是null
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值