第一种方式是
先将准备好的数据放到hive里,通过动态载入的方式将数据条条加入分区
可以参考我写得 kettle hive 表动态分区思路
第二种方式是设置变量
然后写sql脚本的方式load数据到分区里
这两种方法适用于不同场合
如果是每日更新数据方式,可以采用第二种方法,使分区效率更高,
如果是初始导入大量数据的方式,可以采用第一种方法,在准备数据阶段分成几份依次导入,减少服务器负载
第一种方式是
先将准备好的数据放到hive里,通过动态载入的方式将数据条条加入分区
可以参考我写得 kettle hive 表动态分区思路
第二种方式是设置变量
然后写sql脚本的方式load数据到分区里
这两种方法适用于不同场合
如果是每日更新数据方式,可以采用第二种方法,使分区效率更高,
如果是初始导入大量数据的方式,可以采用第一种方法,在准备数据阶段分成几份依次导入,减少服务器负载