impala的使用以及安装

最新推荐文章于 2023-05-17 21:49:48 发布

喵喵秀拌酱

最新推荐文章于 2023-05-17 21:49:48 发布

阅读量1k

点赞数

分类专栏：笔记文章标签：数据库数据仓库大数据

本文链接：https://blog.csdn.net/Carina_____/article/details/112785667

版权

之前上课内容的回顾：

zookeeper
hadoop （hdfs+mapreduce）
hive：数据仓库的工具主要用来做数据分析的

数据仓库主要是面向数据分析的 OLAP
数据库主要是面向事务处理的 OLTP

flume：日志数据采集的一个工具
exec Source tail -F
spoolingDir source 监控某个文件架下面的文件
avro Source 网络传输，从上级avro sink里面接受数据
TailDir Source 可以按照正则匹配，收集某一类的文件

channel：memory channel

sink：hdfs sink ：如何控制文件的大小（通过控制时间长短和文件内容的大小）

azkaban：任务调度的框架
sqoop：数据导入导出的工具
导入：从关系型数据库到hdfs
导出：从hdfs到关系型数据库

离线日志分析综合案例：
第一步：数据的采集
第二步：数据的统一的存储
第三步：数据的清洗主要目的：将半结构化的数据，转换成结构化的数据 MR来实现 MR比较灵活，可以灵活的处理我们的数据
第四步：数据的映射入库 hive可以将结构化的数据映射成为一张表
第五步：数据的分析数据仓库DW层，数据的分析
第六步：将分析的结果，存入到hive的临时表当中
第七步：通过sqoop工具将我们的数据导出去导mysql当中
第八步：通过web报表展示工具，展示我们的统计结果

azkaban定时任务执行

课程大纲：

impala：hive的替代品数据的处理速度，最少比hive快10-100倍的样子
hue：图形化的界面 hue可以整合我们学过的各种各样的大数据框架包括但不局限于 hive，mr，hdfs，impala，mysql，oozie，saprk，solr 可以通过拖拉拽的方式，实现我们的任务调度
oozie：azkaban的替代品，替代azkaban实现任务的调度

impala的基本介绍

impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，
impala是参照谷歌的新三篇论文（Caffeine、Pregel、Dremel
）当中的Dremel实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce
impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点

impala与hive的关系

最低0.47元/天解锁文章

喵喵秀拌酱

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
impala的使用以及安装

之前上课内容的回顾：zookeeperhadoop （hdfs+mapreduce）hive：数据仓库的工具主要用来做数据分析的数据仓库主要是面向数据分析的 OLAP数据库主要是面向事务处理的 OLTPflume：日志数据采集的一个工具exec Source tail -FspoolingDir source 监控某个文件架下面的文件avro Source 网络传输，从上级avro sink里面接受数据TailDir Source 可以按照正则匹配，收集某一类的文件chan
复制链接

扫一扫