hive
SeaSky_Steven
这个作者很懒,什么都没留下…
展开
-
HIVE中get_json_object与json_tuple使用及区别
场景:获取hive表字段格式为json的内部key信息如下一条表记录,表名:test,表字段:id,event_name,info,time.其中event_name为string类型的json串1588914335352 coupon_view {"extend":{"pos":1,"cate_id":0,"cate_title":"推荐"},"object_info":{"fid":"38b7ivhA19gmbvMvIvFvsvqIvUvsv2b","coupon_promo_typ原创 2020-05-08 19:00:03 · 1194 阅读 · 0 评论 -
hive排序:distribute by 、sort by 、cluster by 、order by 区别
1). order by 只有一个reduce负责对所有的数据进行排序,若大数据量,则需要较长的时间。建议在小的数据集中使用order by 进行排序。2). order by 可以通过设置hive.mapred.mode参数控制执行方式,若选择strict,则order by 则需要指定limit(若有分区还有指定哪个分区) ;若为nostrict,则与关系型数据库差不多。3). sort...转载 2020-04-16 19:42:44 · 390 阅读 · 0 评论 -
hive: size与spilt连用
select size(split(brand_id_rate_str,",")), count(1) from alg.qz_click_keyword_brandrate_model group by size(split(brand_id_rate_str,",")) limit 50;目的:查看brand_id_rate_str 按,...原创 2020-02-28 16:22:10 · 1226 阅读 · 0 评论 -
hive 常用函数
Hive常用函数大全一览Hive常用函数大全一览1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS NOT NULL 1....转载 2019-11-27 19:13:09 · 173 阅读 · 0 评论 -
hive 数据类型转换、字符串函数、条件判断
数据类型转换同Java语言一样,Hive也包括 隐式转换(implicit conversions)和显式转换(explicitly conversions)。Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较,假如一个数据类型是INT型,另一个 是SMALLINT类型,那么SMALLINT类型的数据将会被隐式转换地转换为INT类型,这个...转载 2019-11-27 19:07:41 · 2659 阅读 · 0 评论 -
hive regexp_extract
1。regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数: 要处理的字段第二参数: 需要匹配的正则表达式第三个参数:0是显示与...转载 2019-11-27 19:00:22 · 477 阅读 · 0 评论 -
hive 分区查看新增及删除
查看表现有分区:show partitions table_name;获取最新分区(day):select max(day) as latest_day from table添加分区(分区字段包含:p_hour,p_city,p_loctype。):alter table my_partition_test_table if not exists add partition ...原创 2019-09-17 14:21:16 · 267 阅读 · 0 评论 -
hive中导入json格式的数据(hive分区表)
原文地址:https://www.bbsmax.com/A/QW5YY36N5m/hive中建立外部分区表,外部数据格式是json的如何导入呢?json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了This is all according to this guide: http://blog.cloudera.com/blog/2012/12/how-to...转载 2019-09-06 20:08:45 · 416 阅读 · 0 评论 -
hive中的hiveconf与hivevar区别以及其作用域
原文地址:https://blog.csdn.net/dax1n/article/details/808227551 、hivevar与hiveconf的区别:命名空间 使用权限 详细描述hivevar rw 用户自定义变量hiveconf rw hive相关配置属性system rw java定义的配置属性env r Sh...转载 2019-09-06 17:41:34 · 541 阅读 · 0 评论 -
Hive分区表新增字段为null的bug及解决方法
原文:https://blog.csdn.net/qq_36743482/article/details/78406963 最近工作中遇到一个问题:对于分区表添加字段,向已存在分区中插入数据,结果新增字段的值全部为null。注:是已存在分区,新的分区并不会产生该问题;无论是内部表还是外部表均有该问题。在新增字段之后及时对表进行msck repair table 仍然存在问题。问题描...转载 2019-08-07 12:01:45 · 544 阅读 · 0 评论 -
使用sqoop迁移mysql数据到hive
相关参考文献:1.原文地址:http://www.cnblogs.com/charlist/p/7122198.html使用Sqoop能够极大简化MySQL数据迁移至Hive之流程,并降低Hadoop处理分析任务时的难度。先决条件:安装并运行有Sqoop与Hive的Hadoop环境。为了加快处理速度,我们还将使用Cloudera Quickstart VM(要求至少4 GB内存),...转载 2019-05-13 11:01:48 · 1169 阅读 · 0 评论 -
hive -f/-e 结果出现WARN问题
问题现象:hive -f “hsql.sql” > /tmp/hsql.loghive -e “select * from tmp.table limit 10” > /tmp/hsql.log备注:hive -f与hive -e 作用是相同的。-f 是指定hsql文件。-e 是指定要执行的sqlHIVE执行重定向之后数据最后多了两行日志。WARN: The method ...转载 2019-01-19 10:51:20 · 1326 阅读 · 1 评论