hive 删除分区
alter table pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');
alter table pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');
三分之一时间处理
from_unixtime(unix_timestamp(a.last_upd,'yyyy-MM-dd:HH:mm:ss') + 28800,'yyyy-MM-dd') as last_upd_dt,
时间戳处理
from_unixtime(unix_timestamp(state_dt,'yyyy/MM/dd HH:mm:ss'),'yyyy-MM-dd HH:mm:ss.0' )as state_dt
转码
iconv -f gbk -t utf-8 /inter4/ODS/bak/20170401/LOC_TELECOM_AREA_1_0020170401.dat -c -o /inter4/ODS/data/20170401/LOC_TELECOM_AREA_1_0020170401.dat
iconv -f gbk -t utf-8 aaa.dat -o aaa_test.dat
put
hadoop fs -put /user/sjzx_b/data/get_data/zcj_test/
get
show create table
hadoop fs -get /user/sjzx_b/hive/sjzx_test.db/jx_yidong_zaiwang_user_201607/
文件合并 cat
scp
scp 000000_0 ogg@134.96.180.139:/att/init
load
load data inpath /user/sjzx_b/data/get_data/zcj_test/xx.txt
overwrite into table sjqy.xx;
hive 创建表结构
drop table if exists pdm.ofr_asset_relate_hist_${latnid};\n
create table if not exists pdm.bak_ofr_cdsc_grp_agree_info_z(
agree_info_row_id string comment '群组协议唯一编号'
,agree_row_id string comment '群组协议号'
,cdsc_row_id string comment '优惠唯一编码'
,cdsc_eff_dt date comment '生效时间'
,cdsc_exp_dt date comment '失效时间'
,cdsc_para_num decimal(18,0) comment '参数个数'
,cdsc_para1 string comment '参数1'
,etl_time string comment '数据入库时间'
)
partitioned by (etl_wk int)
row format delimited fields terminated by ','
hbese 和 hive 的区别
hive :使用mr封装的数据仓库工具,不是数据库。一般用来做分析业务使用 不直接接入业务
hive 将hql 语句封装成MapReduce 运行再YARN 平台上
hbase :是一个面向列的非关系型数据库 分布式架构
核心功能 是用来存储和检索数据 可以直接接入业务系统
不依赖yarn 和MapReduce
zookeeper 是一个分布式的 开放源码的应用协调服务 配置维护 域名维护 分布式同步的
zookeeper 是一个分布式的 开放源码的应用协调服务 配置维护 域名维护 分布式同步的
目标 就是封装好容易出错的服务。把简单易用的接口和服务提供给用户
hive 中join 机制和原理
hive 中 join 有两种
common join 一般是在reduce 端来完成join
Map join
Common join 分为 3中
Map 端 将 on 条件中的key 组合起来
Shuffle 阶段进行 key value 组合 也就是 hash 两个表中相同的key 在同一个表中
Reduce 通过key的值完成 join 操作
Map jion 通过设置 最小表的 文件大小参数
hive.mapjoin.smalltable.filesize 原理就是将小表加载到内存当中 能够快速的实现