![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HIVE
jiajiahebangbang
这个作者很懒,什么都没留下…
展开
-
Hive加载数据时遇到NULL数据错误的解决方法
仅是个人遇到的问题,以下是具体情境。 创建表单:create table if not exists user_info(user_id int,gender int,birthdate string,create_time string,address string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' stored原创 2016-07-11 18:57:11 · 4458 阅读 · 0 评论 -
HIVE的一个情景实现
在学习Hive中的一个关于Hive的应用场景场景:公司有两张业务表:1. 用户基本信息表; 2. 用户手机信息表 用户基本信息表有以下字段:user_id,gender,birthdate, create_time, address。每个用户一条记录 用户手机信息表字段:user_id, mobile, carrier, belong_to。每个用户可能有多条记录。部分手机号是错的,比如只有10原创 2016-07-11 19:01:49 · 422 阅读 · 0 评论 -
Hive中生成随机唯一标识ID的方法
HIVE中处理的数据往往比较多,在处理数据的时候希望给处理得到的数据一个ID标识,这时候可以用到UUID。UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲,如果一台机器每秒产生10000000个UUID,则可以保证(概率意义上)3240年不重复。UUID 的目的,是让分布式系统中的所有元素,都能有唯一的标识,而不需要透过中央控制端来做标识。如此一来,每个人都可原创 2016-07-13 14:35:30 · 31047 阅读 · 5 评论 -
Hive的分组排序方法-row_number
这个方法总而言之就是帮助用户减少工作量比如,如下结构:CREATE TABLE user_order(user_id int COMMENT '用户ID'pro_id int COMMENT '产品ID',value STRING COMMENT '价格' )查出每个用户买的价值最高的两个用品,如果不用row_number费点时间也是可以写出来的,但是用row_number就比较快捷:原创 2016-07-14 11:34:34 · 9545 阅读 · 2 评论 -
Hadoop Hive UDTF教程
本文是一个系列,第一篇打不开了,所以先翻第二篇。 在第一篇讨论了原始类型和嵌入式数据结构,但UDF限制于只有单条输出。 在本篇文章中,我们将关注UDTF,这个函数类型更加复杂,但是支持单个输入输出多行和多列的信息!(继承自org.apache.hadoop.hive.ql.udf.generic.GenericUDTF)code本篇文章中所有的代码和数据放在这里: https://github翻译 2016-08-08 14:43:24 · 1578 阅读 · 0 评论 -
Hadoop Hive UDF 教程
关于编写HIVE的UDF,有两个不同的接口可以实现。一个非常简单,另一个则并不容易。只要你的函数能够读取原始类型数据并返回原始类型数据就能使用简单的API(org.apache.hadoop.hive.ql.exec.UDF),这个原始类型数据是指Hadoop和Hive的可写类型-Text, IntWritable, LongWritable, DoubleWritable等。无论如何翻译 2016-08-10 15:47:45 · 5097 阅读 · 0 评论