关于Hive创建表，但数据项内容包含与分割符相同的字符的处理方式

本文链接：https://blog.csdn.net/qq_60990361/article/details/137205438

当使用Hive创建表的时候一般需要根据实际的数据内容进行编写映射，当数据项内容与目标分隔符存在冲突时往往会难以进行处理，所以可以通过SERDEPROPERTIES配置属性来定义表中的数据格式，以便Hive能够进行数据的操作，一般会使用正则表达式来进行编写，并且正则表达式为Java形式的。

例如处理如下数据（原文件为csv文件，如下为提取的部分内容）

首选肯定要使用英文逗号当做列分隔符，不难发现content中的逗号为中文逗号，所以不会对操作产生错误影响，但tagList中的逗号为英文逗号，所以会出现错误结果的情况，但是tagList中的数据是以英文双引号包含起来的，所以可以通过SERDEPROPERTIES配置属性特判此双引号，并且由于原文件为csv文件，还需要进行类型转换，具体实现代码如下（为方便，数据类型均设为string类型）

CREATE TABLE movie (
    cityName STRING,
    content STRING,
    score STRING,
    sureViewed STRING,
    tagList STRING,
    userLevel STRING,
    vipType STRING,
    gender STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
    "input.regex" = "(.*?),(.*?),(.*?),(.*?),\"(.*?)\",(.*?),(.*?),(.*?)$",
    "output.format.string" = "%1$s,%2$s,%3$s,%4$s,%5$s,%6$s,%7$s,%8$s"
)
STORED AS TEXTFILE;

其中（.*?）表示非贪婪匹配任意字符的数量，直到下一个匹配项出现，

\"(.*?)\" 表示匹配一对双引号之间的任意字符的模式。具体解释如下：

        \"：表示一个双引号字符。在正则表达式中，双引号通常需要进行转义，所以用 \" 表示一个双引号字符。
        (.*?)：表示一个非贪婪捕获组，用于匹配任意数量的字符（包括零个字符），直到遇到下一个双引号为止。.*? 表示任意数量的任意字符（包括零个字符），? 表示非贪婪匹配，即尽可能少地匹配字符，以确保在匹配到下一个双引号之前停止匹配。
        因此，\"(.*?)\" 表示一个包含一对双引号之间的任意字符的文本模式，用于匹配输入中的双引号括起来的文本。

如此便可解决上述存在的问题。（运行结果图如下）