Hive精华问答 | Hive和传统数据库有什么不同?

640?wx_fmt=png

Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。


640?wx_fmt=gif1

Q:Hive和传统数据库有什么不同?各有什么试用场景。


A:1、数据存储位置。Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。

2、数据格式。Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。

3、数据更新。Hive的内容是读多写少的,因此,不支持对数据的改写和删除,数据都在加载的时候中确定好的。数据库中的数据通常是需要经常进行修改。

4、执行延迟。Hive在查询数据的时候,需要扫描整个表(或分区),因此延迟较高,只有在处理大数据是才有优势。数据库在处理小数据是执行延迟较低。

5、索引。Hive没有,数据库有

6、执行。Hive是MapReduce,数据库是Executor

7、可扩展性。Hive高,数据库低

8、数据规模。Hive大,数据库


640?wx_fmt=gif2

Q:Hive有哪些应用场景?


A:1、Data Ingestion (数据摄取)

2、Data Discovery(数据发现)

3、Data analytics(数据分析)

4、Data Visualization & Collaboration(数据可视化和协同开发)


640?wx_fmt=gif3

Q:大数据分析与挖掘方法论是哪六步活动?


A:大数据分析与挖掘方法论被称为CRISP-DM方法,是以数据为中心迭代循环进行的六步活动,它们分别是:商业理解、数据理解、数据准备、建立模型、模型评估、结果部署。


640?wx_fmt=gif4

Q:数据分析挖掘方法大致包含哪些组成部分?


A:1.分类 Classification

2.估计Estimation

3.预测Prediction

4. 关联规则Association Rules

5. 聚类Cluster

6. 描述与可视化Description and Visualization

640?wx_fmt=gif5

Q:在数据分析与挖掘中对数据的访问性有哪些要求?



A:交互性访问、批处理访问、迭代计算、数据查询,Hadoop仅仅支持了其中批处理访问,而Spark则支持所有4种方式


640?wx_fmt=png


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg


推荐阅读:

真香,朕在看了!
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值