1.Hive 安装部署
Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。
根据元数据存储的介质不同,分为下面两个版本,其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。
- ## 内置 derby 版:
解压 hive 安装包
bin/hive 启动即可使用
缺点:不同路径启动 hive,每一个 hive 拥有一套自己的元数据,无法共享
当我们在摸一个路径启动hive时,最后生成的数据文件即保存在我们所在目录下,数据无法共享.
- mysql 版:
- (a)配置HIVE_HOME环境变量
vi conf/hive-env.sh
配置其中的$hadoop_home
- (b)解压、修改配置文件
vi conf/hive-site.xml
#添加如下内容:
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
#数据库用户登录名
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
#数据库用户登录密码
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>
- 配置 Mysql 元数据库信息
yum install mysql mysql-server mysql-devel
完成后,用 /etc/init.d/mysqld start 启动mysql
设置成开机自启 chkconfig mysqld on
启动mysql控制台:
mysql
mysql>; USE mysql;
mysql>; UPDATE user SET Password=PASSWORD('newpassword') WHERE user='root';
mysql>; FLUSH PRIVILEGES;
允许远程登录
mysql -u root -p
Enter Password: <your new password>
mysql>GRANT ALL PRIVILEGES ON *.* TO '用户名'@'%' IDENTIFIED BY '密码' WITH GRANT OPTION;
完成后就能远程管理mysql了。
2.Hive的几种启动方式
1.Hive交互shell bin/hive
2.Hive JDBC服务(参考java jdbc连接mysql)
3.hive启动为一个服务器,来对外提供服务
bin/hiveserver2
nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &
启动成功后,可以在别的节点上用beeline去连接
bin/beeline -u jdbc:hive2://mini1:10000 -n root
或者
bin/beeline
! connect jdbc:hive2://mini1:10000
#####登陆的用户是虚拟机主机名字或者用户名
#####登录密码是主机密码或者用户密码
4.Hive命令
hive -e ‘sql’
bin/hive -e 'select * from t_test'
3.建表语句
- 内部表
create table t_test(id int,name string,age int);
当我们创建一个表时,会自动在HDFS上生成一个user目录,里面最终存放我们要分析的数据,所以我们要把数据上禅道文件夹下
/user/hive/warehouse/test.db/与文件数据
但是我们查询表时,会显示表中的内容为null,所以我们要进行表数据进行关联
- 关联数据表建表
create table t_test2(id int,name string,age int) row format delimited fields terminated by ',';
将数据上传到HDFS自动生成的路径下
/user/hive/warehouse/test.db/t_test2
我们在进行表数据的查询,就可以查询表内的数据
- 表关系的映射
##### hive数据库------------>/user/hive/warehouse 数据库名.db(文件夹)
数据库下表------------> 数据库名.db(文件夹) 子文件夹 命名就是表名
因此要想映射的数据目前来看必须在这个数据库表所对应的文件夹下面
##### 要想映射成功 表的字段个数 类型需要跟结构化数据文件中列的个数 类型要对应上
要想映射成功 还需要在建表的时候根据结构化数据的列之间的分隔符 建表的时候指定
row format delimited fields terminated by ‘’;
如果不指定分隔符 还想映射成功 就要求结构化数据的分隔符是\001 这个是hive默认分隔符
在vi 编辑模式下 Ctrl+v 然后 Ctrl+a 即可输入'\001' -----------> ^A
- 分隔符
create table t_map(id int,name string,hobby map<string,string>)
row format delimited
fields terminated by ',' ##字段
collection items terminated by '-' ##数组
map keys terminated by ':' ; ##map集合
数据:
1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般般
2<