hive-TextInputformat自定义分隔符

最新推荐文章于 2024-05-10 15:17:41 发布

大明湖里有蛤蟆

最新推荐文章于 2024-05-10 15:17:41 发布

阅读量7.8k

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/chaolovejia/article/details/46343001

版权

前言

在一次利用sqoop将关系型数据库Oracle中的数据导入到hive的测试中，出现了一个分割符的问题。oracle中有字段中含有\n换行符，由于hive默认是以’\n’作为换行分割符的，所以用sqoop将oracle中数据导入到hive中导致hive中的数据条目跟原始数据库不一致，当时的处理方式是数据在导入到HDFS之前，用sqoop的参数将字段中的换行符都替换掉。

Sqoop在将数据从关系型数据库导入到HDFS时，支持将\n替换成自定义换行符（支持单字符自定义换行符），但是在hive中建表时用语句<row format delimited lines terminated by>指定自定义换行符会提示如下错误：

< linesterminated by>参数目前仅支持’\n’。不能指定自定义换行符，这样自定义换行符的数据就不能导入到hive中，基于以上考虑，本文简单说明了如何让hive实现自定义多个字符的换行和字段分割符，供大家参考。如有不足请批评指正。

环境

Hadoop：2.2
Hive：0.12（星环inceptor，支持原生hive）

目标

分析hive自定义多字符串换行符；
实现hive自定义多字符串字段分隔符；
实现hivetextinputformat自定义编码格式的设置。

1.hive的序列化与反序列化

Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。

在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。

首先来理清这三者之间的关系，我们直接引用Hive官方说法：

SerDe is a short name for “Serializer and Deserializer.”

Hive uses SerDe (and !FileFormat) to read and write table rows.

HDFS files –> InputFileFormat –> <key, value> –> Deserializer –> Row object

Row object –> Serializer –> <key, value> –> OutputFileFormat –> HDFS files

总结一下，面对一个HDFS上的文件，Hive将如下处理（以读为例）：

(1) 调用InputFormat，将文件切成不同的文档。每篇文档即一行(Row)。

(2) 调用SerDe的Deserializer，将一行(Row)，切分为各个字段。

当HIVE执行INSERT操作，将Row写入文件时，主要调用OutputFormat、SerDe的Seriliazer，顺序与读取相反。

针对含有自定义换行符和字段分隔符的HDFS文件，本文仅介绍hive读取的过程的修改。

2 Hive默认采用的TextInputFormat类

首先建一个简单的表，然后用<describe extended >命令查看该表的详细信息。

transwarp> create table test1(id int);
OK
Time taken: 0.062seconds
transwarp>describe extended test1;
OK
id                  int                   None               
                  
Detailed Table Information     
Table(tableName:test1, dbName:default, owner:root,createTime:1409300219, lastAccessTime:0, retention:0,
sd:StorageDescriptor(
cols:[FieldSchema(name:id, type:int,comment:null)],location:hdfs://leezq-vm3:8020/inceptor1/user/hive/warehouse/test1,
inputFormat:org.apache.hadoop.mapred.TextInputFormat,outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat,
compressed:false,
numBuckets:-1,
serdeInfo:SerDeInfo(
name:null,
serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,
parameters:{serialization.format=1}),
bucketCols:[], sortCols:[], parameters:{},skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[],skewedColValueLocationMaps:{}), storedAsSubDirectories:false),

最低0.47元/天解锁文章

大明湖里有蛤蟆

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
hive-TextInputformat自定义分隔符

前言在一次利用sqoop将关系型数据库Oracle中的数据导入到hive的测试中，出现了一个分割符的问题。oracle中有字段中含有\n换行符，由于hive默认是以’\n’作为换行分割符的，所以用sqoop将oracle中数据导入到hive中导致hive中的数据条目跟原始数据库不一致，当时的处理方式是数据在导入到HDFS之前，用sqoop的参数将字段中的换行符都替换掉。Sqoop在将数据从
复制链接

扫一扫

专栏目录