hive
朱同学
这个作者很懒,什么都没留下…
展开
-
[hive] 经典sql题及答案(三)
推荐:经典sql题及答案(一)经典sql题及答案(二)题目部分22 、使用hive 求出两个数据集的差集?数据t1表:id name1 zs2 lst2表:id name1 zs3 ww结果如下:id name2 ls3 ww2325 、每个用户连续登陆的最大天数?数据:login表uid,date1,2019-08-011,2019-08-02...原创 2019-11-17 20:25:53 · 1181 阅读 · 0 评论 -
[hive] 总结hive只能有一个reduce运行的情况及改善方法
推荐hive的调优手段总结hive在什么情况下只能有一个reduce运行有时不管怎么设置调整reduce个数的参数,任务中一直都只有一个reduce任务,此时所有数据都发往一个reduce会导致任务执行缓慢甚至失败,因此实际工作过程中要尽量避免这种情况的发生.有以下情况会导致只有一个reduce执行任务:1 使用udtf聚集函数却没带group by比如select count...原创 2019-11-16 09:17:56 · 3644 阅读 · 2 评论 -
[hive] hive的调优手段总结
hive调优1 fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。[hive-site.xml]...原创 2019-11-16 09:07:38 · 415 阅读 · 0 评论 -
[hive] 经典sql题及答案(二)
推荐:经典sql题及答案(一)题目部分4 、编写连续7 天登录的总人数:数据:t1表Uid dt login_status(1登录成功,0异常)1 2019-07-11 11 2019-07-12 11 2019-07-13 11 2019-07-14 11 2019-07-15 11 2019-07-16 11 2019-07-17 11 2019...原创 2019-11-16 08:10:51 · 1586 阅读 · 0 评论 -
[hive] 蚂蚁金服的两道sql题
题目背景说明:以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name:user_low_carbonuser_id data_dt low_carbon用户 日期 减少碳排放(g)蚂蚁森林植物换购表,用于记录申领环保植物所需要减少的碳排放量table_name: plant_carbonplant_id plant_name low_car...原创 2019-11-13 16:33:50 · 1115 阅读 · 1 评论 -
[hive] 经典sql题及答案(一)
题目部分第1题我们有如下的用户访问数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4要求使用SQL统计出每个用户的累积访问次数,...原创 2019-11-05 21:41:59 · 8754 阅读 · 0 评论 -
[hive] 在sql中使用一次函数然后做嵌套查询速度快,还是反复使用函数不做嵌套查询速度快
表中的数据是百万级别有两种sql一种是用到dtt字段的地方直接使用date_format(dt,‘yyyy-MM’),如sql01.一种是将dtt字段作为视图,嵌套在最内层,使得外层sql可以直接使用dtt别名,如sql02.问题是两种sql查询速度会更快呢?sql01:select date_format(dt,'yyyy-MM') dtt,count(*) from sql0...原创 2019-10-26 15:48:18 · 736 阅读 · 0 评论 -
[hive] 两个类型为string的字段能否相加
分两种情况1 值为数值的情况此时能相加,结果为double类型数据准备a 1 2a 2 2b 3 3c 4 4create table teststring(userid string,num1 string,num2 string)row format delimited fields terminated by '\t'stored as textfile;load ...原创 2019-10-26 09:27:07 · 6786 阅读 · 0 评论 -
[hive] 任务提交到yarn执行时没有响应,连接失败
很可能是resourceManager出了问题解决办法是关闭当前的主resourceManager,使从nodeManager转正.原创 2019-10-24 21:36:50 · 848 阅读 · 0 评论 -
[hive] 关于内部表和外部表区别的误区
网上相当一部分博客如此描述内外部表的区别创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。创建表时数据会不会移动取决于以下两点1 数据来源是本地还是hdf...原创 2019-10-09 09:51:08 · 992 阅读 · 0 评论