一、hive是什么?
Hive是一个基于Hadoop的数据仓库工具,它提供了数据摘要、查询和分析的功能。以下是关于Hive的几个关键点:
SQL到MapReduce的转换:Hive的主要作用是将类似于SQL的查询语句(称为HiveQL)转换成MapReduce任务,以便在Hadoop上执行。这使得开发者可以使用熟悉的SQL语法来进行大数据处理,而无需直接编写复杂的MapReduce程序。
数据存储:Hive处理的数据通常存储在Hadoop的文件系统(HDFS)中,这意味着它可以处理非常大规模的数据集。
接口友好性:由于Hive使用类SQL的查询语言,它的操作接口对于熟悉SQL的开发者来说非常友好,可以快速上手进行开发。
适合的场景:Hive适合于进行批量数据处理和数据分析,尤其适用于数据挖掘、数据摘要和即席查询等场景。由于其执行延迟相对较高,它常用于对实时性要求不高的任务。
产生背景:Hive最初由Facebook开源,用于解决海量结构化日志的数据统计问题。它现在已经成为大数据分析领域的一个重要工具。
架构:Hive的架构包括元数据存储、驱动器、编译器、执行器等组件,这些组件共同工作,使得Hive能够有效地管理和查询大规模数据集。
综上所述,Hive是一个强大的工具,特别适合于处理和分析存储在Hadoop上的大规模结构化数据。通过提供类SQL的查询功能,它简化了大数据处理的复杂性,使得数据分析更加高效和易于管理。
二、MySQL的安装步骤。
1.实验前需要启动的集群。
2.上传MySQL的压缩包。
1.解压安装包,并且解压到置顶目录。
tar -xvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar -C /ysc/ //解压到根目录下的ysc目录
2.卸载系统自带的mariadb。
rpm -qa | grep mariadb | xargs rpm -e --nodeps
3.安装MySQL。
rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm
三.MySQL的使用与修改。
1.启动MySQL的服务。
systemctl start mysqld
2. 查看MySQL的临时密码。
3.进入MySQL对密码和表进行修改。
1.需要先修改密码才能使用。
set password=password('Sc26503+');
2.把密码改成‘123456’。
set global validate_password_policy=0;
set global validate_password_length=1;
再次修改密码为123456
四.hive的安装与配置。
1.上传压缩包。
2.解压安装包并指定目录。
tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /ysc/
3. 新建hive的数据源。
4.将MySQL的驱动移动到Hive的lib目录下。
mv mysql-connector-java-5.1.37-bin.jar hive/lib/
5.配置hive的环境变量。
vim /etc/profile
export HIVE_HOME=/ysc/hive
export PATH=$HIVE_HOME/bin:$PATH
让环境变量生效
source /etc/profi在$HIVE_HOME/conf目录下新建hive-site.xml文件le
6.在hive/conf目录下新建hive-site.xml文件。
<configuration>
<!-- jdbc连接的URL -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://node1:3306/metastore?useSSL=false</value>
</property>
<!-- jdbc连接的Driver-->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<!-- jdbc连接的username-->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<!-- jdbc连接的password -->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<!-- Hive默认在HDFS的工作目录 -->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>
7. 初始化Hive元数据库。
到hive的配置目录下
bin/schematool -dbType mysql -initSchema -verbose
8.启动hive。
bin/hive
9.使用hive。
create table ysc(id int, name string);
insert into ysc values(1,'yyy');
10.查看数据源。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了hive的使用。