hive学习总结

慕容潇湘

已于 2022-06-04 09:50:41 修改

阅读量372

点赞数

分类专栏：大数据文章标签： hive mysql java

于 2022-05-28 07:09:06 首次发布

本文链接：https://blog.csdn.net/riju4713/article/details/125013912

版权

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

hive元数据：
1.记录表与数据文件之间的映射
2.记录了表字段与文件之间的映射关系
3.记录了数据文件的存放位置

1.hive可以将结构化的数据文件映射成一个数据库表
load ****** create table table(id,name,date)
2.使用类SQL语句对文件进行查询
select name,count(*) from table group by id;
3.SQL
解析器
编译器-优化器-执行器-mapReduce任务-客户

hive的表存放位置模式是由hive-site.xml当中的一个属性指定的

<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>

DML操作：

#创建数据库
create database if not exists mytest;
use mytest;

create table people(id int,name string);

#根据查询已有数据表信息创建表
#复制表结构和内容
create table  people2 as  select * from people;

#创建表（复制已有表结构）
create  table stu3 like  stu;


#创建数据库库并指定位置
create database mytest location '/mytest';

#查看数据库基本信息
desc  database   mytest;

#查看若有表
show tables;

#查看数据库更多详细信息
desc database extended mytest;

#查看表信息
desc  formatted   people2;


#删除一个空数据库，如果数据库下面有数据表，那么就会报错
drop database mytest;

#强制删除数据库(包括表信息)
drop database mytest cascade;


内部表和外部表 区别

外部表：
外部表因为是指定其他的 hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive
表的时候，数据仍然存放在hdfs当中，不会删掉

使用场景：
每天将收集到的网站日志定期流入HDFS文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间
表、结果表使用内部表存储，数据通过SELECT+INSERT进入内部表。

创建老师表
create  external  table   teacher(t_id  string,t_name string)  row format  delimited fields terminated  by  '\t';
创建学生表
create  external   table  student(s_id  string,s_name string,s_birth string,s_sex  string) row   format  delimited   fields  terminated   by  '\t';
    加载数据（相当于追加）
    load data local inpath '/export/servers/hivedatas/student.csv' into table student;
    加载数据并覆盖已有数据
    load data local inpath '/export/servers/hivedatas/student.csv' overwrite into table student;
     从hdfs文件系统向表中加载数据（需要提前将数据上传到hdfs文件系统）
     cd /export/servers/hivedatas
     hdfs dfs -mkdir -p /hivedatas
     hdfs dfs -put techer.csv /hivedatas/
     load data inpath '/hivedatas/techer.csv' into table teacher;

Hive查询操作：

1.order  by 会对输入做全局排序，因此只有一个reducer,会导致当输入规模较大时，需要较长的计算时间
2.sort by  不是全局排序，其在进去reducer前完成排序。因此，如果用sort by进行排序，并且设置
mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
3. distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。
4. Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。 ---> distribute by + sort by
因此，如果分桶和sort字段是同一个时，此时，   cluster by = distribute by + sort by



常用函数
count(),max(),min(),sum(),avg()，
concat('a','b','c')               # abc      字符串拼接函数
concat_ws(',','a','b','c')        # a,b,c    带分隔符字符串拼接函数
cast(1.5 as int)                  # 1        类型转换
get_json_object('{"name":"lxy","age":"30"}','$.name')   # lxy    json解析

http://192.168.118.161:50070/explorer.html#/user/hive/warehouse

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://152.136.6.1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>
    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>
    <property>
        <name>datanucleus.schema.autoCreateAll</name>
        <value>true</value>
    </property>
    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>node01.hadoop.com</value>
    </property>
</configuration>

本地学习参考了这个：

【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程_报告，今天也有好好学习的博客-CSDN博客_hive windows目录一定要先看的前言1 安装Hadoop1.1 下载并解压资源1.2 配置系统变量和环境变量1.2.1 系统变量1.2.2 环境变量1.2.3测试1.3 复制文件1.4 修改配置文件1.4.1 创建目录1.4.2 修改5个文件1.5 格式化HDFS1.6 开启四个进程1.7 测试Hadoop DFS2 安装Hive MySQL版本2.1 下载并解压资源2.2 配置系统变量和环境变量2.2.1 系统变量2.2.2 环境变量2.3 Hive config配置2.4 创建目录2.5 修改 hive-env.sh2https://blog.csdn.net/qq_44186838/article/details/119965991

慕容潇湘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive学习总结

<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>javax.jdo.option.ConnectionUserName</name> <valu.
复制链接

扫一扫

专栏目录