大数据
文章平均质量分 59
大数据技术栈
sunghosts
这个作者很懒,什么都没留下…
展开
-
hive中的lead和lag hive lead over
1.什么时候用开窗函数?开窗函数常结合聚合函数使用,一般来讲聚合后的行数要少于聚合前的行数,但是有时我们既想显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数2.窗口函数的语法:UDAF() over (PARTITION By col1,col2 order by col3 窗口子句(rows between … and …)) AS 列别名注意:PARTITION By后可跟多个字段,order By只跟一个字段。转载 2024-08-29 15:26:58 · 149 阅读 · 0 评论 -
Hive清理分区
Hive内部表和外部表1.内部表没有external 关键字2.内部表可以不指定 location关键字,当然hivesql执行外部表是也可以不指定,但是一般不这么用,sparksql,执行时不指定会报错3.内部表删除表时,直接删除元数据以及实际数据,外部表则只会删除元数据,hdfs上保留数据这一条会衍生一些东西如果建立临时表,一般使用内部表,这样可以直接删除数据,不至于导致数据多余删除外部表时,再create table ,然后insert overwrite 时,会使数据重复一倍,需要注意原创 2022-01-28 14:57:11 · 4529 阅读 · 0 评论 -
Hive——join的使用
转:https://www.cnblogs.com/jnba/p/10673747.htmlhive中常用的join有:inner join、left join 、right join 、full join、left semi join、cross join、mulitiple在hive中建立两张表,用于测试:hive> select * from rdb_a;OK1 lucy2 jack3 tony hive> select * from转载 2021-10-15 17:20:02 · 663 阅读 · 0 评论 -
Excel数据导入hive步骤
Excel导出逗号文件.csv将CSV文件导入到hive服务器制定目录转换编码格式转换编码格式,在指定目录下执行如下命令:piconv -f gb2312 -t UTF-8 CompanyCode.txt > c.txt在hive中建表create table sf_staff_info(uid string,department string,phone string)ROW format delimitedfields terminated by..转载 2021-09-17 19:07:24 · 1333 阅读 · 0 评论