![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 81
数据仓库工具之hive
菜鸟周星星
大数据开发攻城狮。更多学习和面试资料尽在微信公众号:Hadoop大数据开发
展开
-
大数据实战之数仓项目(二)后续架构构想及近期安排
大家好,今天手画了一幅后续架构构想【如下图】现在行业内数仓架构比较流行的即是kimball模型从第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive中存储起来到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】..原创 2021-06-25 23:51:28 · 204 阅读 · 0 评论 -
2021-4-14hive之错误总结
本篇是2021年4月上半月遇到的一些问题和解决方案,思考,注意点,以备以后自己忘记可以快速查询,定位类似错误并解决。1、hive低版本,可能不太支持有的地方嵌套子查询,比如case when中,例如:case when exp then (子查询) when exp then (子查询) else value end as alias还比如在where 条件中也不能出现子查询select name from...原创 2021-04-14 23:45:53 · 629 阅读 · 0 评论 -
面试集锦(二)之手写sql面试题目及map端join_20210206_大数据面试题
本篇是大数据面试题部分,今日内容sql题目 map端joinsql题目查询第二高的薪水编写一个 SQL 查询,获取 Employee表中第二高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述Employee表,SQL查询应该返回200 作为第二高的薪水...原创 2021-02-06 17:49:54 · 265 阅读 · 0 评论 -
hive之窗口函数和自定义函数
本篇主要讲解常用的几个窗口函数,以及如何自定义函数常用的普通函数,比如类型转换 cast(field as type) 将某列值(字符串)转换为某个类型 比如double或者 to_unix_timestamp(field) 将某列值(字符串)转换为timestamp 单位为s或者日期格式化函数date_format 这些 普通的函数,忘记的时候可以百度查一下api或者去spark sql文档中去找一找,参照一下demo就可以使用了而窗口函数在实际应用中也比较...原创 2021-01-20 23:01:49 · 612 阅读 · 0 评论 -
sparkSQL整合hive
若是开发要用到之前的hive的元数据,而又不想在hive里面编程,可以选择整合spark,在spark中写hive sql整合步骤:1.安装MySQL并创建一个普通用户,并且授权 CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; GRANT ALL PRIVILEGES ON hivedb.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIV...原创 2021-01-07 17:29:19 · 328 阅读 · 0 评论 -
面试_SQL题目_答案_解析_每日一练_12-11
1.答案:selectclas,sum(score)fromtb_scorewhere clas='2班'group by clas;结果:+-------+------+| clas | _c1 |+-------+------+| 2班 | 176 |+-------+------+优化点:这里的2班这个条件我放在了where条件中,而不是放在分组之后的having条件中,这里是一个很重要的优化。2.答案:selectc.teacher...原创 2020-12-11 16:53:30 · 120 阅读 · 0 评论 -
我与Hive的不解之谜系列(五):Hive常用函数及面试题实践解析
本篇内容主要讲述一些常用的函数、语法,结合案例、面试题来进行实践。日期函数date_sub('',n) 和date_add('',n) 加减日期select date_sub('2020-12-03',1);+-------------+| _c0 |+-------------+| 2020-12-02 |+-------------+select date_add('2020-12-03',1);+-------------+| _...原创 2020-12-06 21:52:00 · 315 阅读 · 0 评论 -
我与Hive的不解之谜系列(四):行转列和列转行
SQL 中的行转列和列转行。原创 2020-12-02 22:25:00 · 327 阅读 · 0 评论 -
我与Hive的不解之谜系列(三):Hive的分区表和分桶表及SQL知识
本篇主要讲的是hive中的分区表、分桶表的概念及实践,还讲了hive sql中的一些概念和知识。原创 2020-12-02 21:28:07 · 661 阅读 · 0 评论 -
我与Hive的不解之谜系列(二):Hive的常见命令及导入数据和导出数据
本篇主讲内容1.温故知新2.hive的常见命令3.内部表和外部表4.导入数据的方式5.导出数据的方式温故知新1)在hive中使用hdfs的命令 dfs +命令 如:dfs -ls /2)hive只能分析结构化的数据3)hive的本质:在hive中创建的表,库都在hdfs上有相应的路径!表中的数据,是文件的形式在表对应的目录中存放!在建表和建库后,会在Mysql中生成对应的schema信息!tbls: 存放表的元数据dbs: 库的元数据c...原创 2020-11-30 22:03:28 · 345 阅读 · 0 评论 -
我与Hive的不解之谜系列(一):Hive简介及Hive的安装
本篇内容1.hive简介2.hive基本执行原理3.hive的安装及配置4.远程连接原创 2020-11-30 20:22:54 · 385 阅读 · 0 评论