1. Hive中的数据抽象
Hive中的表(stu)必须要归属于某个数据库(default)
Database 包含了0到N张表,每个db对应HDFS上的一个文件夹,default库默认对应的是 /user/hive/warehouse
2. 基本数据类型
官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types
HDFS上的文件来说:string
数值类型:int bigint float double decimal
字符串类型:string 90%
布尔类型:boolean: true/false (可考虑用tinyint代替优化)
日期类型:date timestamp …
3. 分隔符
delimiter | code | 备注 |
---|---|---|
^A | \001 | 字段之间的分隔符 |
\n | \n | 记录分隔符,行与行的分隔符 |
^B | \002 | ARRAY/STRUCT (Hive中的复杂数据类型) |
^C | \003 | key/value of MAP (Hive中的复杂数据类型) |
- 可以自己指定分隔符,但是指定的分隔符不能是数据中的内容,否则数据会错位。