hive基本用法

hive 删除分区
alter table  pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');
alter table  pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');
三分之一时间处理            
from_unixtime(unix_timestamp(a.last_upd,'yyyy-MM-dd:HH:mm:ss') + 28800,'yyyy-MM-dd')  as last_upd_dt,
时间戳处理
from_unixtime(unix_timestamp(state_dt,'yyyy/MM/dd HH:mm:ss'),'yyyy-MM-dd HH:mm:ss.0' )as state_dt

转码
iconv -f gbk -t utf-8 /inter4/ODS/bak/20170401/LOC_TELECOM_AREA_1_0020170401.dat -c -o /inter4/ODS/data/20170401/LOC_TELECOM_AREA_1_0020170401.dat

iconv -f gbk -t utf-8 aaa.dat -o aaa_test.dat
put 
hadoop fs -put /user/sjzx_b/data/get_data/zcj_test/


get
show create table
hadoop fs -get /user/sjzx_b/hive/sjzx_test.db/jx_yidong_zaiwang_user_201607/

文件合并 cat

scp  
scp 000000_0 ogg@134.96.180.139:/att/init

load
load data inpath /user/sjzx_b/data/get_data/zcj_test/xx.txt
overwrite into table sjqy.xx;

hive 创建表结构
drop table if exists pdm.ofr_asset_relate_hist_${latnid};\n
create table if not exists pdm.bak_ofr_cdsc_grp_agree_info_z(
 agree_info_row_id      string         comment '群组协议唯一编号' 
 ,agree_row_id           string        comment '群组协议号'       
 ,cdsc_row_id            string        comment '优惠唯一编码'     
 ,cdsc_eff_dt            date          comment '生效时间'         
 ,cdsc_exp_dt            date          comment '失效时间'         
 ,cdsc_para_num          decimal(18,0) comment '参数个数'         
 ,cdsc_para1             string        comment '参数1'             
 ,etl_time               string        comment '数据入库时间'
 )
 partitioned by (etl_wk int)
  row format delimited fields terminated by ','   

hbese 和 hive 的区别

hive :使用mr封装的数据仓库工具,不是数据库。一般用来做分析业务使用 不直接接入业务
        hive 将hql 语句封装成MapReduce 运行再YARN 平台上
hbase :是一个面向列的非关系型数据库 分布式架构
           核心功能 是用来存储和检索数据 可以直接接入业务系统
           不依赖yarn 和MapReduce
zookeeper 是一个分布式的 开放源码的应用协调服务  配置维护 域名维护 分布式同步的
                  目标 就是封装好容易出错的服务。把简单易用的接口和服务提供给用户

hive 中join 机制和原理

hive 中 join 有两种
common join  一般是在reduce 端来完成join 
Map join 

  Common join 分为 3中
  Map  端 将 on 条件中的key 组合起来
  Shuffle  阶段进行 key value 组合 也就是 hash 两个表中相同的key 在同一个表中
  Reduce   通过key的值完成 join 操作

Map jion  通过设置 最小表的 文件大小参数
hive.mapjoin.smalltable.filesize   原理就是将小表加载到内存当中  能够快速的实现

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值