spark on hive
作者:小涛
Hive是数据仓库,他是处理有结构化的数据,当数据没有结构化时hive就无法导入数据,而它也是远行在mr程序之上的基于磁盘计算,然而我们今天来让hive远行在spark上,基于内存计算,在基于内存来让hive远行在内存上这样就比以前的快个几十倍,现在让我们一起来看看hive on spark吧!
首先要说说hive他的一些元数据信息是保存在mysql里面的,所以我们首先要安装mysql服务,而真实的数据是存储在hdfs中的,本文作者的大数据集群hadoop 2.8.7 spark 2.3.0
Scala 2.11 jdk 1.8.45 hive 1.2.2
安装:mysql通过yum -y install mysql mysql-server
启动:mysql服务service mysqld start,当启动好以后可以在命令行直接登录mysql了,输入mysql,但是这样是不安全的我们需要给mysql初始化密码跟设置密码
在命令行输入/usr/mysql_secure_installation,通过这个来设置密码