Hive 知识盲点

1. 元数据配置

配置属性 javax.jdo.option.ConnectionURL, javax.jdo.option.ConnectionDriverName 等


2. 集合数据类型

STRUCT:

MAP:

ARRAY:


3.分割符

\n 分行

\001  分列

\002  分隔ARRAY、STRUCT、MAP

\003  分隔MAP


4. 创建数据库,指定位置

create database  financials  location  '/my/preferred/directory'



5. 创建表:配置参数

也可以配置 location 


6. 外部表

create external table 。。。。。。

外部表不能真正删除这些数据,只修改元数据


7. 分区表

partitioned by 

会为每个分区配置不同的文件夹


8. 外部分区表

外部+分区


9. 自定义表存储格式

定义各种分割符


10. 增删改表分区

ALTER  。。。 ADD 。。。 PARTITION

ALTER  。。。 DRP 。。。 PARTITION

ALTER  。。。 PARTITION。。。。SET


11. 装载数据

本地:LOAD DATA LOCAL PATH “。。。。” 

HDFS: LOAD DATA PATH “。。。。” 


12. 动态分区插入

INSERT  OVERWRITE TABLE tableName PARTITION (country='cn', state)  SELECT 。。。。。。


13. 导出数据

INSERT OVERWRITE LOCAL DIRECTORY   ‘/tmp/data’  SELECT 。。。


14. 正则表达式匹配列

select  symbol,  'price.*'   from stocks


15. 表生成函数

explode, inline, json_tuple, parse_url_tuple, stack 等

特别的,hive也有 正则表达式提取函数: regexp_extract, regexp_replace 等函数


16. CASE...WHEN

类似IF语句


17. 避免MapReduce

配置自动启用本地模式


18. RLIKE 正则表达式的LIKE

用法与like一样


19. JOIN 优化

小表在前,大表在后。Hive尝试将前面的表缓存起来,与最后的表连接。


20. 左半开连接 LEFT SEMI-JOIN

结果与内连接一样,但是效率高:对于左表中一条记录,在右边表中一旦找到匹配的记录,Hive立即停止扫描。而内连接全部扫描。


21.map-side Join

配置自动启用


22. ORDER BY 和 SORT BY

order by 是全局排序

sort by 是每个reduce局部排序


23. DISTRIBUTE BY

控制map的输出在reduce中的划分


24. CLUSTER BY

相当于 DISTRIBUTE BY、sort by 的组合


25. 抽样查询

select * from tablename TABLESAMPE(0.1 PERSENT)  s;

select * from tablename TABLESAMPE(  BUCKET  2 OUT OF 10 on rand() )  s;



26. 分桶表输入裁剪


27. 视图注意点


30. Hive 索引

功能有限


31. 常用模式设计

(1) 按天划分的表



32.分区


33. 同一数据多种处理


34. 分桶表

太多小分区带来问题,可以使用分桶


35. 执行计划EXPLAIN


36. 严格模式


37. 自动本地模式


38. 推测执行


39. 虚拟列


40. 压缩杂项


41.存档分区


42. Java 调试


43. Hive_test

单元测试


44. UDF

继承 org.apache.hadoop.hive.ql.exec.UDF,  实现方法 evaluate()

或者继承GenericUDF, 实现initialize、evaluate,getDisplayString 等方法


45. Streaming

与shell集成


46.其他格式


47.Thrift


48. 结合其他Hadoop部件


49.安全


50. 锁

结合zookeepper 来的


51. 整合 Oozie


52. HCatalog


53. 案例















转载于:https://www.cnblogs.com/leeeee/p/7276130.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值