大数据---25.Hive的数据导入和基本操作

学无止境的大象

已于 2023-11-28 17:34:14 修改

阅读量2.6k

点赞数

文章标签： hive big data mysql

于 2022-06-06 13:27:10 首次发布

本文链接：https://blog.csdn.net/u014579001/article/details/125138285

版权

大数据—Hive的数据导入和基本操作

1.大数据创建操作

当我们启动hive之后，我们的hive在启动的初始化的过程中就会帮我们在mysql的数据库中创建我们制定的数据库名字；并且里边有对用的表（这些表不需要我们现在操作；到大数据架构的时候才会用的上；）

如果存在连接不上的时候；去查看navicat的的连接；
他的里边建立很多的表：
当我们的hive安装成功之后；hive默认里边有一个库：default库；

这个库是hive自动生成的；而我们以后需要的就需要我们自己去创建；使用的sql语句和mysql是一样的；

数据库的创建

3.创建一个自己的数据库：
create database db_order；
在这里插入图片描述
创建完毕数据库就要使用数据库；如果不指定他是用的default库；
使用数据库： use db_order；

注意：但是这个地方不显示你到底进入是那个库；我们需要显示你进入的是那个库：比如在前面显示 db_order；或者default；根据你进入的是那个：

需要进行设置：
1、让提示符显示当前库：
hive>set hive.cli.print.current.db=true; 但是他是一次性；退出就有回去了在这里插入图片描述

切换就有回去了；
永久修改方法：进入到目录：
1./usr/local/hive/apache-hive-1.2.2-bin/bin/
2.然后编辑(隐藏文件) vi .hiverc
3.把上面的粘贴到里边；set hive.cli.print.current.db=true;

4.然后重启hive即可；

4.其他的数据库操作和mysql的一样； drop；alter 等等；

表的创建

直接使用数据库的语句进行操作即可；
在这里插入图片描述
查看表结构：

添加表数据：（手工添加）

因为hive是存储数据还是hdfs；他的主要作用还是在计算reduce上；我们发现当添加数据的时候他就会把数据存储到hdfs上的数据；

hive在HDFS中的数据显示

在hive创建的数据库，会默认的在hdfs的：/user/hive/warehouse/数据库/表，改目录可以自行配置
在这里插入图片描述
而要是往hive中导入数据的方式有很多中：
这里使用的是我们自己导入；还可以使用外部导入数据的方式；
如果是hdfs中上传的数据可以直接放入到hive中去；

方式二：在hive的命令行中进行数据导入：（用hive导入数据）
在这里插入图片描述

hive的数据导入操作

例如：这些数据是我们从外部导入到hive中的数据；
在这里插入图片描述

在这里插入图片描述
怎样把这些数据导入到表中去：
1.肯定的先有一张表；在这个边中有这几个字段； id；name，age，address；

这样的化数据添加的时候就会添加到id那栏位上；会以每行的方式存储进去；把数据类型就不匹配；问题来了：但是这个文档中的数据都是通过逗号分隔的；那么在数据库中默认会认为是一条数据然后插入到第一个字段；

可以修改字段：
在这里插入图片描述

2.需要修改表的字段把第一个字段改成string；
在这里插入图片描述
这样的haul就出现了我们的数据放在第一个字段里边；

解决这个问题：可以使用hive的原始方法来创建表实现：

1.create table stu03(id int ,name string, age int ,address string) row format delimited fields terminated by ‘,’;
创建表的时候；对每行数据进行格式分割；用","分割；这样就和文件中的对应了；
2.加载外部文件导入；
load data local inpath ‘/root/students1.txt’ into table stu03;
3.查询创建的表中的数据：select *from stu03；
在这里插入图片描述

不显示字段名称：
需要修改内容：
hive>set hive.cli.print.header=true; 但是这是临时的；并显示表的名字；
在这里插入图片描述
如果想让他们对齐；并且不显示表的名字;
hive >set hive.resultset.use.unique.column.names=false;

如果退出的化；他后有回去了；永久改变；

1./usr/local/hive/apache-hive-1.2.2-bin/bin/
2.然后编辑(隐藏文件) vi .hiverc
添加：
set hive.cli.print.header=true;
set hive.resultset.use.unique.column.names=false;

在这里插入图片描述
保存即可；

还有一个参数：修改后让我们进行数据查询的时候不走MapReduce的操作：
1.查询当前的stu03表；
在这里插入图片描述
2.我们统计下；使用函数操作：

发现他走的是MapReduce的操作；这样就非常的慢；
设置这个参数就可以了；set hive.exec.mode.local.auto=true; 开起本地模式：数据量比较小的时候用本地；当数据量大的时候；用集群；操作把这个地方改成false；

当一个job满足如下条件才能真正使用本地模式：
1.job的输入数据大小必须小于参数：hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数：hive.exec.mode.local.auto.tasks.max(默认4)
3.job的reduce数必须为0或者1

在这里插入图片描述