Hive
文章平均质量分 58
hxhh
研发+产品,分享一些工作实用技巧和干货,共勉
展开
-
SQL心得(下)
SQL心得(下)原创 2022-06-09 17:35:56 · 241 阅读 · 1 评论 -
Hive 在指定位置添加字段
本文转载至:https://blog.csdn.net/u010002184/article/details/90143932此处仅为mark,方便查看。捣腾了半天,终于找到解决方案了,hive定时任务原表添加字段的方法分两步,先添加字段到最后(add columns),然后再移动到指定位置(change)alter table table_name add columns (c_time string comment '当前时间'); -- 正确,添加在最后alter table table_n转载 2020-08-17 11:05:16 · 2940 阅读 · 0 评论 -
hive创表语句
Hive的建表\插入语句创建规则:CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ....原创 2020-05-06 14:34:32 · 398 阅读 · 0 评论 -
SQL心得
1 .发现select结果出现空行,如:(A union all B )left join C 。可能是A和B 不需要union 删除一个即可2 .发现select出现的行,重复问题。如 A leftjoin (select * from B left join max()… ) t 。可能是B做了分表,导致max()函数重复出了好几个,所以修改括号内函数为开窗函数row_number() ov...原创 2019-02-21 10:15:51 · 5283 阅读 · 0 评论 -
数据仓库和数据库的区别
转自: https://blog.csdn.net/maiduiyizu/article/details/80371410一、数据仓库 1.什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业...转载 2019-02-13 14:48:11 · 315 阅读 · 0 评论 -
Hive添加自增列
select row_number() over(order by 1) as id,a.* from dp_ipo_tmp.tmp_ipo_yekuai_118_2018q4_06 a where Finterest_date <= '2018-12-31'代码line2所示,即为添加的自增id列原创 2019-01-29 16:47:58 · 7787 阅读 · 1 评论 -
Add to group by or wrap in first() (or first_value) if you don't care which value you get. 报错解决方案
SELECT SUBSTR(i.fdate,1,10) fdate,Ftype,SUM(i.Fdate_interest/100-i.Fpetty_date_ticket/1000000) fbase_interest,SUM(Fpetty_date_ticket)/1000000 fticket_interestFROM jz_snap.finance_db_t_finance_up_...原创 2019-01-25 14:44:42 · 4789 阅读 · 0 评论 -
hive 插入数据到date类型的列中
方法一'2018-11-30' as fdate 方法二cast('2018-11-30' as date) as fdate 方法三to_date('2018-11-30 00:00:00') as fdate记得千万不要写错日期比如 2018-11-31 × 这种无论用色好呢么转换都是错的,因为11月没有31号!!!...原创 2018-12-25 20:23:46 · 10616 阅读 · 0 评论 -
ORC文件格式
ORC文件格式https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC在Hive版本0.11.0中引入。所述***优化行柱状(ORC)***文件格式提供了存储数据蜂房一种高度有效的方法。它旨在克服其他Hive文件格式的限制。当Hive读取,写入和处理数据时,使用ORC文件可以提高性能。例如,与RCFile格式相比...原创 2018-12-17 10:32:12 · 5539 阅读 · 0 评论 -
HiveQL:数据操作-导入和导出
–向管理中加载数据 (分区目录不存在,则会先创建分区)load data local inpath '${env:HOME}/california-employees'overwirte into table employeespartition (country = 'US', state ='CA')–通过查询语句向表中插入数据insert overwrite table empl...原创 2018-12-10 17:39:43 · 944 阅读 · 0 评论 -
inner join 与 left join 之间的区别
inner join 与 left join 之间的区别 关于inner join 与 left join 之间的区别,以前以为自己搞懂了,今天从前端取参数的时候发现不是预想中的结果,才知道问题出在inner join 上了。需求是从数据库查数据,在前端以柱形图的形式展现出来,查到的数据按行业分组,显示每个行业的户数及户数占比,涉及到的字段有A表的用户数、总用户数和B表的行业名称。本来是...转载 2018-12-26 16:59:48 · 15359 阅读 · 0 评论 -
使用 union all注意点
两个select 出来的列:字段数量、数据类型、顺序必须相同列名可以不同原创 2018-12-26 16:35:20 · 3501 阅读 · 0 评论 -
HiveQL: 查询
阿萨德原创 2018-12-14 15:56:29 · 991 阅读 · 0 评论 -
line cannot recognize input near ';' '<EOF>' '<EOF>' in expression specification (HQL报错)
%hiveCreate table table1 stored as orc as SELECT p3.*from(SELECT p2.* ,row_number() over(PARTITION BY p2.id ORDER BY p2.find DESC) rf FROM (SELECT p1.* , row_number() over(PARTITION BY fi...原创 2018-12-05 18:30:54 · 26226 阅读 · 0 评论 -
HiveQL:数据定义
–查看数据库sshow databases; –创建数据库create database human_resources;–查找开头为h的所有数据库show database like 'h.*';–创建数据库,并指定位置create database financialslocation 'my/dir'–创建数据库。并添加说明create database fina...原创 2018-12-07 19:44:56 · 494 阅读 · 0 评论