Hive建表时多字符分割

最新推荐文章于 2024-05-10 15:17:41 发布

Joseph25

最新推荐文章于 2024-05-10 15:17:41 发布

阅读量3.3k

点赞数 1

分类专栏： hive 文章标签：多字符分割

本文链接：https://blog.csdn.net/Joseph25/article/details/97899818

版权

hive 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

一般hive建表的时候都会根据数据的分隔符进行建表，表的分隔符分三种

1，默认分隔符

\n	行分隔符
^A	字段分隔符,八进制表示为\001,
^B	array或struct中为元素分隔符，map中为key-value分隔符\002
^C	map中为key和value间的分隔符\003

默认分割符一般是在建表是指定的，^A为\001，^B为\002，^C为\003，不同的数据格式不同的分隔符，在vim中\001是先按Ctrl+v再按Ctrl+a，\002先按Ctrl+v再按Ctrl+b，以此类推

2，指定单个特殊符号做为分隔符

create external table an_dimension_area(
area_id string,
county_name string,
city_id string,
city_name string,
province_id string,
province_name string
)
row format delimited
fields terminated by ','
STORED AS TEXTFILE;

上述为用"，"做为字段间的分割，或者字段间以\t为分割，行之间用\n分割，自己根据自己需要随意指定

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n'

3，使用多字符作为分割符

我们的数据是以@@@分割，所以用上面的分割符都不能满足，

①使用MultiDelimitSerDe的方法来实现

 ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="@@@") LINES TERMINATED BY '\n'STORED AS TEXTFILE;

row format SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="@@@")

②使用RegexSerDe的方法实现

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "^(.*)\\@\\@\\@(.*)$") LINES TERMINATED BY '\n'STORED AS TEXTFILE;

参考：https://blog.csdn.net/u013150378/article/details/90766209

Joseph25

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive建表时多字符分割

一般hive建表的时候都会根据数据的分隔符进行建表，表的分隔符分三种1，默认分隔符\n 行分隔符 ^A 字段分隔符,八进制表示为\001, ^B array或struct中为元素分隔符，map中为key-value分隔符\002 ^C map中为key和value间的分隔符\003 默认分割符一般是在建表是指定的，^A为\001，^B为\002，^...
复制链接

扫一扫