大数据生态之hive
hive
MySQL
-------------------------------------------
SQL:structure query language
select 查询
insert 添加
update 修改
delete 删除
ddl:create 、drop 、alter
RDBMS
-------------------------------------------
Relation Database Management System 、关系型数据管理系统
OLTP:online transaction process 在线事务处理
数据库事务的特点:
a.原子性
c.一致性
i.隔离性
d.永久性
低延迟,支持事务管理
事务并发现象:
1.脏读 //读未提交
2.幻读 //读不回去
3.不可重复读 //读多了
事务的隔离级别:
1.读未提交
2.读已提交
4.可以重复读
8.串行化
hive介绍
-------------------------------------------
数据仓库软件
存储,重在分析,延迟高不支持在线事务处理
使用SQL来读,写,管理驻留在分布式存储系统上的大型数据集,可以使用命令行和Driver连接到hive
运行在Hadoop之上 用来汇集查询数据。
OLAP:online analyze process 在线分析处理
不是关系型数据库 、非OLTP 、不适合实时查询和低层更新操作
特点:
在数据库中存放schema,在hdfs上处理数据
提供了类SQL语言,hiveql即 HQL
可扩展、可伸缩、速度快
hive组件
-------------------------------------------
UI //用户输入
MetaStore //schema 、table 、clume信息在RDBMS
HQL Prcess Engein //编写一个SQL代替了以前MR语句
Excution Engein //处理查询生成结果
HDFS //分布式存储6
hive安装
hive下载
1.安装JDK
2.安装Hadoop
3.安装hive
解压
tar -zxvf apache-hive-1.1.0-bin.tar.gz -C /usr/local/src/
创建软连接
ln -s apache-hive-1.1.0-bin/ hive
4.配置环境变量
vim /etc/profile.d/hive.sh
export HIVE_HOME=/usr/local/src/hive
export PATH=$PATH:$HIVE_HOME/bin
5.即刻生效
source /etc/profile.d/hive.sh
hive --version
6.配置hive
cd conf/ //进入hive的配置文件目录
cp hive-env.sh.template hive-env.sh #把配置文件改名
vim hive-env.sh
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/usr/local/src/hadoop
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/usr/local/src/hive/conf
下载MySQL
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server
#这步可能会花些时间,安装完成后就会覆盖掉之前的mariadb
#启动MySQL服务
systemctl start mysqld