- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 ds集群安装
1.配置机器间无密码访问1.1在主节点机器上执行一下命令,创建专用及公用加密秘钥,输入一下命令后,需要按enter键2次:ssh-keygen-b 1024 -t rsa -f ~/.ssh/id_rsa1.2将生成的文件id_rsa.pub,copy到机器从节点机器上相同目录下,执行以下命令copycd~/.sshscp id_rsa.pubuser@hostname: ~/.ssh 注...
2018-06-27 10:50:36 925
原创 create table 基本参数解释
CREATE [EXTERNAL]① TABLE [IF NOTEXISTS] table_name [(col_namedata_type [COMMENT col_comment], ...)]②[COMMENTtable_comment]③[ [COMMENT col_comment], ...)]④[CLUSTERED BY(col_name, col_name, ...) ⑤...
2018-05-31 17:48:13 6554
原创 fi UDF
UDF写法要求:· 1.UDF必须继承:org.apache.hadoop.hive.ql.exec.UDF· 2.必须至少实现一个evaluate方法,支持重载在hive中添加UDF的方法:· 将UDF上传到HDFS· 登录beeline客户端,执行set的语句:set role admin;· 在hive中注册jar包:add jarhdfs:...
2018-05-31 17:23:46 305
原创 hive 历史数据迁移 一
需要注意的点:1. 导出文件的字符集 hive中的数据字符集只有utf8,如果导出的文件为GBK,在serde不做特殊处理时,临时表中会存在乱码的情况。 3种方案: 1.导出文件时,做转码。 注:如db2 指定codepage,需注意一点:数据库字段约束长度问题,GBK与UTF8不一致,如果数据库表在设计时没有考虑字段长度扩充问题,不建议使用指定字符集,会产生字...
2018-05-31 17:19:23 662
原创 hive orc 文件copy
1. 确认数据范围2. 确认原表与目标表的表结构是否一致· Beeline 登录大数据平台· 执行show create table tablename查看表结构· 比对表结构3. 查看源表的location· show create table tablename4. 生成取数的命令,并执行· hadoop fs -du -h...
2018-05-31 17:14:47 669
原创 分组求和
适用场景: 系统 数值 cbus 100 cbus 200 ebus 105 ebus 100 按系统求和#!/bin/bashDEBUG=1for i in `awk -F ':' '{print $1}' 1.txt | sort | uniq`doaa=`awk -F ':' '$1 ~ /'$i'/ {(tot=tot+$2) } ; END {print tot}' 1.txt`((...
2018-05-31 17:04:02 533
原创 linux文件完整性校验
1.md5sum md5sum是通过在传输前后比对文件生成的md5的值进行比对,它会逐位对文件的内容进行校验(md5值是一个128位的二进制数据,转换成16进制则是32(128/4)位的进制值,文件越大,校验的时间越长),如果值一致,则表示文件传输无异常, md5校验的是文件的内容,所以可能会出现2个文件的名称不一致,但是md5值是一致的。注:MD5值有小概率出
2017-10-10 11:27:49 3540
原创 本地yum配置
1.将iso文件挂载在/mnt/cdrom下, mount -o loop /home/moia/rhel-server-6.3-x86_64-dvd.iso /mnt/cdrom2.修改repo配置文件,路径为:/etc/yum.repos.d/local.host,在文件里面添加以下内容: [base] name=base
2017-10-09 13:17:08 397
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人