Hive
Hive是一个建立在Hadoop之上的数据仓库基础设施,它提供了类似于SQL查询语言(称为HiveQL)的接口,用于处理和分析大规模的结构化数据。
Hive是Hadoop生态的数据仓库工具 Hive将存储在HDFS上的文件映射为关系表 通过解析开发者提交的SQL语句,将SQL转换成MR任务,提交到Hadoop执行 Hive提供了命令行客户端和JDBC
下面是一些Hive的概念:
-
表(Table):在Hive中,数据被组织成表的形式。每个表都有一个名称和一系列的列,每列都有对应的数据类型。
-
分区(Partition):分区是将表数据按照某个列进行划分的过程,可以根据不同的分区键(例如时间、地区等)对表进行划分。使用分区可以提高查询性能和管理数据。
-
分桶(Bucket):分桶是将表数据按照哈希函数进行划分的过程,每个桶包含特定的数据块。使用分桶可以更加高效地进行连接操作。
-
HiveQL:Hive提供了类似于SQL的查询语言,称为HiveQL(Hive Query Language)。通过HiveQL,用户可以使用类似于传统关系型数据库的查询语句来操作Hive中的表数据。
-
用户定义函数(UDF):Hive允许用户自定义函数(User-Defined Functions),以便在查询中使用自定义的逻辑和计算。
-
元数据(Metadata):Hive使用元数据来描述表的结构、分区、存储位置等信息。元数据被保存在关系型数据库(如MySQL)中,并由Hive Metastore管理。
Hive的设计目标是提供一个简单、灵活且可扩展的方式来处理大规模数据,尤其适用于批量处理和数据分析任务。
hive安装
mysql8安装-推荐yum安装方式
-
进入mysql官网
-
搜索框查找关键字Yum Repository
-
mysql更改root密码
yum方式安装在/var/log/mysqld.log中找不到初始密码的详细信息该怎么办? #修改/etc/my.cnf在[mysqld]添加配置skip-grant-tables,然后重启mysql #进入mysql先查看mysql密码安全等级 --SHOW VARIABLES LIKE 'validate_password%'; --set global validate_password.policy=LOW; --step3 use mysql; update user set host = '%' where user = 'root'; flush privileges; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'; alter user root@'%' identified by 'root123';
hive安装
#解压apache-hive-3.1.3-bin.tar.gz #conf目录下拷贝改名 cp hive-env.sh.template hive-env.sh vim hive-env.sh -export HADOOP_HOME=/home/hadoop/hadoop-3.3.5 -export HIVE_CONF_DIR=/home/hadoop/apache-hive-3.1.3-bin -export HIVE_AUX_JARS_PATH=/home/hadoop/apache-hive-3.1 .3-bin/lib #hive-default.xml.template 改hive-site.xml # 新建文件 hive-site.xml
-
hive-site.xml配置参考
<?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.98.129:3306/hive?createDatabaseIfNotExist=true&useSSL=false&allowPublicKeyRetrieval=true&characterEncoding=UTF-8</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>root123</value> </property> <property> <name>hive.metastore.event.db.notification.api.auth</name> <value>false</value> </property> <property> <name>hive.metastore.schema.verification</name> <value>false</value> </property> #选择在master节点 <property> <name>hive.server2.thrift.bind.host</name> <value>master</value> </property> <property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> </property> <property> <name>hive.server2.enable.doAs</name> <value>false</value> </property> </configuration>
-
链接Windows的mysql 修改mysql链接权限
win+r 输入 cmd
进入MySQL安装的bin目录下
#登录mysql mysql -u root -p123456 #复制一下命令 update mysql.user set host='%' where user='root'; flush privileges; #如果出现: Rows matched:1 Changed:1 warnings:0 #则在输入:1 #回车出现以下内容即可: mysql> flush privileges; Query OK, 0 rows affected(0.01 sec) mysql>
远程模式部署metastore服务/部署hiveserver2服务
#选择在master节点 vim hive-site.xml <property> <name>hive.server2.thrift.bind.host</name> <value>master</value> </property> <property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> </property> #创建目录logs mkdir logs #启动metastore服务 nohup /opt/module/hive-2.3.9/bin/hive --service metastore > /opt/module/hive-2.3.9/logs/metastore.log 2>&1 & #启动hiveserver2服务 nohup /opt/module/hive-2.3.9/bin/hive --service hiveserver2 > /opt/module/hive-2.3.9/logs/hiveserver2.log 2>&1 & 以上两种命令可以添加日志级别配置 --hiveconf hive.root.logger=WARN,console
#初始化metadata schematool -initSchema -dbType mysql -verbo
配环境变量
echo 'export HIVE_HOME=/opt/hive-2.3.9' >> /etc/profile echo 'export PATH=$HIVE_HOME/bin:$PATH' >> /etc/profile #刷新 source /etc/profile
beeline新客户端方式报错解决
User: hive is not allowed to impersonate anonymous 修改hive-site.xml <property> <name>hive.server2.enable.doAs</name> <value>false</value> </property> 修改core-site.xml <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> #重启hdfs服务 start-dfs.sh #重启hive相关服务 ./hive
hive cli如何屏蔽info日志
-
在hive conf目录下创建log4j.properties,配置如下内容
log4j.rootLogger=WARN,CA log4j.appender.CA=org.apache.log4j.ConsoleAppender log4j.appender.CA.layout=org.apache.log4j.PatternLayout log4j.appender.CA.layout.ConversionPattern=%-4r [%t] %-5p %c %x - %m%n
-