hive
hive从蜜蜂到大象
阿东在路上
这个作者很懒,什么都没留下…
展开
-
hive的四个by
1.order bycol_list: 全局排序,默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果, 比如文件名是000000_0,会导致当输入规模较大时,需要较长的计算时间。 如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输出的条数。 对被排序列进行全排序...转载 2020-05-31 21:19:32 · 612 阅读 · 0 评论 -
hive实操二统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频
video表结构 user表结构 需求分解 查询上传视频最多的用户top10; 将top10的数据表与video表join,得到上传视频的相关信息; 将上述表信息对view进行排序并取前20; 需求实现 查询上传视频最多的用户top10; SELECT videos,uploader FROM gulivideo_user_orc ORDER BY videos DESC LIMIT 10 ; - [ ] 将top10的数据表与video表joi..原创 2020-05-21 20:53:24 · 815 阅读 · 0 评论 -
hive实操一统计视频观看数Top50所关联视频的所属类别Rank
表结构 建表语句 create table gulivideo_orc( videoid string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, comments int, relatedid array<string>) row.原创 2020-05-21 17:17:15 · 965 阅读 · 0 评论 -
Hive安装及配置matestore文件到MYSQL
1:安装配置hive (1):将准备好的hive文件上传到linux上指定的文件夹下。 (2):将tar包解压到指定文件夹下,这里指定/opt/module。 (3):修改配置文件。 将hive-env.sh.template 改名为 hive-env.sh (2):配置hive-env.sh 配置HADOOP_HOME路径 配置HIVE_CONF_DIR路径 2:hive的数据存储...原创 2020-05-17 20:42:52 · 557 阅读 · 0 评论