hive学习总结

hive元数据:
1.记录表与数据文件之间的映射
2.记录了表字段与文件之间的映射关系
3.记录了数据文件的存放位置


1.hive可以将结构化的数据文件映射成一个数据库表
load    ******    create  table  table(id,name,date)
2.使用类SQL语句对文件进行查询
select  name,count(*) from table  group by id;
3.SQL
   解析器
   编译器-优化器-执行器-mapReduce任务-客户

hive的表存放位置模式是由hive-site.xml当中的一个属性指定的

<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>

DML操作: 

#创建数据库
create database if not exists mytest;
use mytest;

create table people(id int,name string);

#根据查询已有数据表信息创建表
#复制表结构和内容
create table  people2 as  select * from people;

#创建表(复制已有表结构)
create  table stu3 like  stu;


#创建数据库库并指定位置
create database mytest location '/mytest';

#查看数据库基本信息
desc  database   mytest;

#查看若有表
show tables;

#查看数据库更多详细信息
desc database extended mytest;

#查看表信息
desc  formatted   people2;


#删除一个空数据库,如果数据库下面有数据表,那么就会报错
drop database mytest;

#强制删除数据库(包括表信息)
drop database mytest cascade;


内部表和外部表 区别

外部表:
外部表因为是指定其他的 hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive
表的时候,数据仍然存放在hdfs当中,不会删掉

使用场景:
每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量的统计分析,用到的中间
表、结果表使用内部表存储,数据通过SELECT+INSERT进入内部表。

创建老师表
create  external  table   teacher(t_id  string,t_name string)  row format  delimited fields terminated  by  '\t';
创建学生表
create  external   table  student(s_id  string,s_name string,s_birth string,s_sex  string) row   format  delimited   fields  terminated   by  '\t';
    加载数据(相当于追加)
    load data local inpath '/export/servers/hivedatas/student.csv' into table student;
    加载数据并覆盖已有数据
    load data local inpath '/export/servers/hivedatas/student.csv' overwrite into table student;
     从hdfs文件系统向表中加载数据(需要提前将数据上传到hdfs文件系统)
     cd /export/servers/hivedatas
     hdfs dfs -mkdir -p /hivedatas
     hdfs dfs -put techer.csv /hivedatas/
     load data inpath '/hivedatas/techer.csv' into table teacher;




Hive查询操作:

1.order  by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间
2.sort by  不是全局排序,其在进去reducer前完成排序。因此,如果用sort by进行排序,并且设置
mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序,不保证全局有序。
3. distribute by(字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列。
4. Cluster by(字段) 除了具有Distribute by的功能外,还会对该字段进行排序。 ---> distribute by + sort by
因此,如果分桶和sort字段是同一个时,此时,   cluster by = distribute by + sort by



常用函数
count(),max(),min(),sum(),avg(),
concat('a','b','c')               # abc      字符串拼接函数
concat_ws(',','a','b','c')        # a,b,c    带分隔符字符串拼接函数
cast(1.5 as int)                  # 1        类型转换
get_json_object('{"name":"lxy","age":"30"}','$.name')   # lxy    json解析

http://192.168.118.161:50070/explorer.html#/user/hive/warehouse

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://152.136.6.1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>
    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>
    <property>
        <name>datanucleus.schema.autoCreateAll</name>
        <value>true</value>
    </property>
    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>node01.hadoop.com</value>
    </property>
</configuration>

本地学习参考了这个:

【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程_报告,今天也有好好学习的博客-CSDN博客_hive windows目录一定要先看的前言1 安装Hadoop1.1 下载并解压资源1.2 配置系统变量和环境变量1.2.1 系统变量1.2.2 环境变量1.2.3测试1.3 复制文件1.4 修改配置文件1.4.1 创建目录1.4.2 修改5个文件1.5 格式化HDFS1.6 开启四个进程1.7 测试Hadoop DFS2 安装Hive MySQL版本2.1 下载并解压资源2.2 配置系统变量和环境变量2.2.1 系统变量2.2.2 环境变量2.3 Hive config配置2.4 创建目录2.5 修改 hive-env.sh2https://blog.csdn.net/qq_44186838/article/details/119965991

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值