Hive
chuangchuangtao
这个作者很懒,什么都没留下…
展开
-
Hive 内置 自增列 UDF 的使用
Hive 版本:Apache hive-1.2.1命令:add jar ${HIVE_HOME}/lib/hive-contrib-1.2.1.jar;create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';select row_sequence(), column原创 2017-08-07 16:48:58 · 2999 阅读 · 0 评论 -
hive文件存储格式
1.textfile(默认格式) 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分2.sequencefile 二进制文件,以原创 2017-08-25 11:25:54 · 254 阅读 · 0 评论 -
Hive 元数据与权限管理
/**user (操作系统) & role (hive) *通过role 管理 user*Privileges可以被授权给Users和Roles; Users可以有一个或多个角色*/# Hive 元数据表DBS --存储Hive中所有数据库的基本信息TBLS --存储Hive表、视图、索引表的基本信息SDS --保存文件存储的基本信息, 如INPUT_FORMAT、OUTPUT_FOR原创 2017-08-25 10:45:33 · 1410 阅读 · 0 评论 -
一个Hive UDAF 实现相邻去重
内置的两个聚合函数(UDAF)collect_list():多行字符串拼接为一行collect_set():多行字符串拼接为一行并去重多行字符串拼接为一行并相邻去重UDAF:Concat()concat_udaf.jarpackage com.tcc.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoo原创 2017-08-21 19:56:53 · 718 阅读 · 0 评论 -
python 访问 hive2
HiveServer2为客户端在远程执行hive查询提供了接口,通过Thrift RPC来实现,还提供了多用户并发和认证功能。目前使用python的用户可以通过pyhs2这个模块来连接HiveServer2,实现查询和取回结果的操作。hive_client.py#!/usr/bin/env python#coding:utf-8import pyhs2''' hive client'''cla原创 2017-08-24 18:15:42 · 468 阅读 · 0 评论 -
hive udf (python)
searchstr_map.py#!/usr/bin/env python#coding:utf-8import sysimport refor line in sys.stdin: line = line.strip() fields = line.split("\t") cityid = str(fields[0]) searchstr = fields[1]原创 2017-08-18 19:20:43 · 361 阅读 · 0 评论 -
Hive 函数参考手册
http://www.cnblogs.com/end/archive/2012/06/18/2553682.html转载 2017-08-18 19:08:59 · 216 阅读 · 0 评论 -
Hive 默认字段分隔符
http://blog.csdn.net/xiao_jun_0820/article/details/37649713转载 2017-08-18 19:06:49 · 12558 阅读 · 0 评论 -
MongoDB 同步 Hive 的两种方式
使用 DataXMongoDB-based http://blog.csdn.net/dr_guo/article/details/51698757说明: 1. 如果Mongo 文档(即记录行)字段个数不定,对确实的字段 DataX 读取不到, 最后Hive 将产生错列。 可通过重写mongodbreader修正。 2. MongoDB-based 方式直接连接hidden节点,使用原创 2017-08-10 17:52:32 · 3711 阅读 · 1 评论 -
Hive SerDe 使用
环境:hadoop-2.7.2,hive-1.2.1RegexSerDe所需jar包:{HIVE_HOME}/lib/hive-contrib-1.2.1.jar<1>. 根据数据格式建表 CREATE TABLE if not exists dbname.tbl_name( chexing STRING, source_name STRING, brand STRING, b原创 2017-08-16 18:52:12 · 795 阅读 · 0 评论 -
hiveserver2 后台运行
启动hivemetastore: nohup hive –service metastore &启动hiveserver2: nohup hive –service hiveserver2 &more:http://blog.csdn.net/skywalker_only/article/details/38335235/原创 2017-08-24 11:47:04 · 2807 阅读 · 0 评论