文本文件数据编码
hive书用几个很少出现在字段值中的控制字符,使用术语field来表示替换默认分隔符的字符
常使用分隔符
分隔符 | 名称 | 说明 |
---|---|---|
\n | 换行符 | 对于文本文件而言,每一行是一条记录,因此换行符可以分割数据。 |
^A | <Ctrl >+A | 常用于分隔列,在CREATE TABLE语句中可以使用八进制编码\001表示。 |
^B | <Ctrl >+B | 常用于分隔ARRAY与STRUCT元素,或用于MAP中键值对之间的分隔。CREATE TABLE语句中可以使用八进制编码\002表示 |
^C | <Ctrl +C> | MAP中键值对的分隔。 |
\t | 制表符 | 常用 |
, | 逗号 | 常用 |
在使用的过程中,可以不适用Hive提供的默认分隔符,而使用其他的分隔符。