1、内部表和外部表的区别
创建函数的区别
删除外部表元数据不删除,删除内部表表和元数据一起删除
如果想实现数据的安全性和共享性,就使用外部表
2、hive优化
hive QL数据查询语言:利用分区表优化
利用桶优化
join优化
group by数据倾斜优化 set hive.groupby.skewindata=true
order by优化
一次读取多次插入
字段显示类型转换
hive架构层面优化:减少执行MapReduce,直接拿取数据,不做计算
本地模式执行MapReduce()
JVM重用 mapreduce.job.jvm.numtasks 的值设置大点,默认为1。重用是指执行完一个任务后JVM不关闭
并行化 set hive.exec.parallel=true 当资源比较充足,执行并行化比较好。
底层MapReduce优化:合理设置map任务数(块大小,最大分片大小、最小分片大小)
合理设置reduce任务数
3、自动时钟同步
dajiangtai01: 暂时启动service ntpd start
ntpdate pool.ntp.org
chkconfig ntpd on 再重启系统,ntpd就永久启动了
其他节点:
crontab -e