hive
一只可爱的栗子
这个作者很懒,什么都没留下…
展开
-
hive sql查询总结
hive最快的执行就是不走MapReduce。简单的select的是最快的,嵌套啥的都比较忙。与关系型数据库不同。 在做之前要将所写的查询语句进行格式化输入,然后再运行。在写sql语句的时候,要注意一下几点: 1、尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。先把所要的条数选出来,然后再在所选出来的数据上进行操作。要做表连接的时候先将每个表所要的东西选出...原创 2018-06-08 15:46:56 · 3836 阅读 · 0 评论 -
hive sql select语句总结
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言...原创 2018-06-08 16:16:25 · 14860 阅读 · 0 评论 -
hive 行转列 lateral view explode
Category 的格式为:mary:5,mike:6而需要的是前面的名字手写需要行转列,然后再去每行:前面的内容select distinct a.dt as dt, a.uid as uid, split(a.category0,'_')[0] as cate1 from (select distinct dt, uid, category0from t_dw_user_app_list_6...原创 2018-06-15 10:51:29 · 746 阅读 · 0 评论 -
在xshell中执行hive sql 并将结果写入另一个txt文本中
在xshell 中进入文件夹:vi test.sql然后将要执行的sql输入,注意开头不能有空格写完后按Esc键,输入:x保存并退出输入下面代码:/usr/bin/beeline -u "jdbc:hive2://dsrv1.heracles.sohuno.com:10000/mbadp;principal=hive/[email protected]...原创 2018-06-15 11:12:39 · 5007 阅读 · 0 评论 -
hive中where子句的注意事项
select a.keyword,count(distinct b.uid) as count from(select uid,keyword from mbadp.t_dw_star_interest where dt = 20180613) ajoin (select distinct imei,dt,keyword from mbadp.t_ods_news_user_behavior ...原创 2018-06-19 15:46:00 · 4877 阅读 · 0 评论 -
hive 取top100
select * from(select cate1,cate2,title,count(uid),row_number() over(partition by cate1,cate2 order by count(uid) desc) as n from t_ods_video_user_behaviorwhere idfa is not null and dt >= 20180621 a...原创 2018-07-02 15:17:00 · 8883 阅读 · 0 评论 -
hadoop将查询结果写入文件中
show creat table 表名找到建表的位置 locationhadoop fs -lshadoop fs -text viewfs://cluster11/user/mbadp/hive/warehouse/t_monitor_user_profile/source=news/dt=20180628/* > ~/data/mbadp/profile_news.txt* 通配...原创 2018-07-03 16:03:22 · 1316 阅读 · 0 评论