hive
trista0929
这个作者很懒,什么都没留下…
展开
-
hive表导出至本地文件
通过sqoop导出时遇到问题,所以尝试通过hive表直接导出至本地文件,再加载到mysql数据库,看到网上的方法,尝试了一些,记录成功执行的方法。 提示权限不够,所以需要注意用户权限的问题,切换用户,再次尝试: 成功。 注:1、不需要提前建app_stat_tem.txt文件; 2、注意用户权限问题。原创 2017-11-06 15:20:08 · 2891 阅读 · 1 评论 -
hive开发规范
一、 建表规范:Hiive分为内部表和外部表,一般情况,只允许建外部表,不建议使用内部表。LZO标准建表模板如下所示:create EXTERNAL table app_sku_pur_attrib (stat_dt string comment ‘统计日期’ ,ord_item_units double comment ‘下单商品件数’,valid_ord_qtty ...原创 2019-07-09 16:17:00 · 1246 阅读 · 0 评论 -
hive的UDF读取配置文件
hive的UDF读取配置文件实现步骤在读取配置文件的写为./file_name,然后在添加UDF的时候把配置文件也加入资源就好了:add jar xxx.jar;add file file_name;create temporary function xxx as xxx;转载:https://blog.csdn.net/weixin_34259159/article/details...转载 2019-04-15 13:41:34 · 2545 阅读 · 0 评论 -
Hive解析Json数据
HIVE直接读入json的函数有两个:(1)get_json_object(string json_string, string path)返回值: string说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。举例:hive> select get_json_object(‘{“store”:{“fruit...转载 2019-04-17 14:15:10 · 2031 阅读 · 0 评论 -
hive sql给查询结果加上一列序号
现有一个表student:select * from student;然后加上一列序号:select row_number() over(partition by 1) as xuhao,a.*from student a;得到结果:转载自:https://blog.csdn.net/qq_40477943/article/details/81873293...转载 2019-04-08 12:23:47 · 5586 阅读 · 0 评论 -
Hive--数据去重及row_number()
distinct会整条数据去重,有一项是不同的整条数据就算不同的,不会去掉,按照某一个字段去重需要如下方法hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost tsck 5 125.168.10.0 33.00 1407234660ck ...转载 2019-04-10 18:23:47 · 3538 阅读 · 0 评论 -
hive函数 -- regexp_extract
函数描述:regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp字符串正则表达式解析函数。– 这个函数有点类似于 substring(str from ‘regexp’) …参数解释:其中:str是被解析的字符串regexp 是正则表达式idx是返回结果 取表达式的哪一部分 默认值为1。...转载 2019-03-22 17:25:58 · 1565 阅读 · 0 评论 -
hive函数—— regexp_replace的用法,替换特殊字符问题
数据仓库中有的字段不合格,有特殊字符,比如换行符。poi_name\n19013\n12013regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)Returns the string resulting from replacing all substrings in INITIAL_STRI...转载 2019-03-22 17:24:01 · 30376 阅读 · 2 评论 -
hive行转列 (Lateral View explode())
原始数据:test.txta b 1,2,3c d 4,5,6方案:drop table test_jzl_20140701_test;create table test_jzl_20140701_test(col1 string,col2 string,col3 string)row format delimi...转载 2019-03-22 17:20:01 · 1810 阅读 · 0 评论 -
Hive UDTF开发指南
之前说过HIVE,UDF(User-Defined-Function)函数的编写和使用,现在来看看UDTF的编写和使用。1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.ud...转载 2019-03-03 11:24:25 · 632 阅读 · 0 评论 -
python脚本用sqoop把mysql数据导入hive数据仓库中
使用说明:由于项目需要将mysql中的业务数据导入到hive中,这里采用sqoop来做中间桥梁,并且通过supervisor来做时间控制,让python定时启动,导入数据。 安装sqoop1.4.6和supervisor#! /usr/bin/env python # coding:utf-8 # -------------------------------- # Created b转载 2017-10-26 16:48:41 · 842 阅读 · 0 评论 -
Sqoop异常解决ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: No
最近在做mysql数据导入hive的工作,先前导入的时候没有问题,这两天导另外一张表总是提示 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: No columns to generate for ClassWriter 问题,网上有说是mysql-connector-j原创 2017-11-03 13:53:14 · 10577 阅读 · 3 评论 -
HIVE常用优化参数
常用MapReduce作业配置参数可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。常见问题及参数设置1、提交作业java.lang.OutOfMemoryError: Java heap space 或者长时间提交不了集群jobos.environ[“HADOOP_CLIENT_OPTS”]="-Xmx1...原创 2019-07-09 16:22:41 · 4184 阅读 · 0 评论