【hive】hive项目调研

从调研的两个项目来看,hive主要作为离线数据库进行存储,一般不能进行实时的插入和更新,也就是对于单条的数据的插入和更新都需要启动一个mapreduce的task进行执行,无疑带来长时间的影响。

1. 地铁大数据客流分析系统

一般将离线数据进行批量导入到hive进行存储,一般使用的方法是sql语句直接将文件的内容导入到hive仓库中
在这里插入图片描述

1.1 在该项目中,首先对数据集从网上进行下载,再将数据集读取,然后通过flink进行实时处理后导入到redis中。
1.2 然后从redis中读取数据通过flink处理放到kafka、hbase、es和hdfs文件
1.3 对于项目中使用的hive就是将上面处理过后的hdfs csv文件进行load到数据库中,然后再根据我们的需要对数据进行sql查询并生成新的hive表,最后再通过spark中的sql执行对这些表进行查询和展示。
综上:该项目中对hive的处理主要是通过对本地文件进行load,并通过sql生成需要的数据表,再通过spark进行展示

2. 电影推荐系统

2.1 项目对hive数据库的存储主要是通过spark对hdfs文件进行读取和处理,然后将处理后的数据将数据存储到hdfs上,并直接将数据load到hive仓库中
2.2 在hive仓库中的数据进行sql读取并在kafka中进行生产,再由sparkstream进行消费并进行处理
在这里插入图片描述
综上:hive在项目中使用的是一个离线数据库的角色,对于数据的更新和查询都需要通过mapreduce进行处理,所以从这个方面来讲我们需要进行毫秒级每条的处理速度,可能只能通过批量处理的方式,或者使用其他数据库进行对其进行替代如hbase等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值