大数据---25.Hive的数据导入和基本操作

大数据—Hive的数据导入和基本操作

1.大数据创建操作

  1. 当我们启动hive之后,我们的hive在启动的初始化的过程中就会帮我们在mysql的数据库中创建我们制定的数据库名字;并且里边有对用的表(这些表不需要我们现在操作;到大数据架构的时候才会用的上;)
    在这里插入图片描述
    如果存在连接不上的时候;去查看navicat的的连接;
    他的里边建立很多的表:
    在这里插入图片描述
  2. 当我们的hive安装成功之后;hive默认里边有一个库:default库;
    在这里插入图片描述
    这个库是hive自动生成的;而我们以后需要的就需要我们自己去创建;使用的sql语句和mysql是一样的;

数据库的创建

3.创建一个自己的数据库:
create database db_order;
在这里插入图片描述
创建完毕数据库就要使用数据库;如果不指定他是用的default库;
使用数据库: use db_order;
在这里插入图片描述
注意:但是这个地方不显示你到底进入是那个库;我们需要显示你进入的是那个库: 比如在前面显示 db_order; 或者default;根据你进入的是那个:

需要进行设置:
1、让提示符显示当前库:
hive>set hive.cli.print.current.db=true; 但是他是一次性;退出就有回去了在这里插入图片描述
在这里插入图片描述
切换就有回去了;
永久修改方法:进入到目录:
1./usr/local/hive/apache-hive-1.2.2-bin/bin/
2.然后编辑(隐藏文件) vi .hiverc
3.把上面的粘贴到里边;set hive.cli.print.current.db=true;
在这里插入图片描述
4.然后重启hive即可;
在这里插入图片描述

4.其他的数据库操作和mysql的一样; drop;alter 等等;

表的创建

直接使用数据库的语句进行操作即可;
在这里插入图片描述
查看表结构:
在这里插入图片描述
添加表数据:(手工添加)
在这里插入图片描述
因为hive是存储数据还是hdfs;他的主要作用还是在计算reduce上; 我们发现当添加数据的时候他就会把数据存储到hdfs上的数据;

hive在HDFS中的数据显示

在hive创建的数据库,会默认的在hdfs的:/user/hive/warehouse/数据库/表,改目录可以自行配置
在这里插入图片描述
而要是往hive中导入数据的方式有很多中:
这里使用的是我们自己导入;还可以使用外部导入数据的方式;
如果是hdfs中上传的数据可以直接放入到hive中去;
在这里插入图片描述

方式二:在hive的命令行中进行数据导入:(用hive导入数据)
在这里插入图片描述

hive的数据导入操作

例如:这些数据是我们从外部导入到hive中的数据;
在这里插入图片描述

在这里插入图片描述
怎样把这些数据导入到表中去:
1.肯定的先有一张表;在这个边中有这几个字段; id;name,age,address;
在这里插入图片描述
在这里插入图片描述

这样的化数据添加的时候就会添加到id那栏位上; 会以每行的方式存储进去;把数据类型就不匹配;问题来了:但是这个文档中的数据都是通过逗号分隔的;那么在数据库中默认会认为是一条数据然后插入到第一个字段;

可以修改字段:
在这里插入图片描述

2.需要修改表的字段 把第一个字段改成string;
在这里插入图片描述
这样的haul就出现了我们的数据放在第一个字段里边;

解决这个问题:可以使用hive的原始方法来创建表实现:

1.create table stu03(id int ,name string, age int ,address string) row format delimited fields terminated by ‘,’;
创建表的时候;对每行数据进行格式分割;用","分割;这样就和文件中的对应了;
2.加载外部文件导入;
load data local inpath ‘/root/students1.txt’ into table stu03;
3.查询创建的表中的数据:select *from stu03;
在这里插入图片描述

不显示字段名称:
需要修改内容:
hive>set hive.cli.print.header=true; 但是这是临时的;并显示表的名字;
在这里插入图片描述
如果想让他们对齐;并且不显示表的名字;
hive >set hive.resultset.use.unique.column.names=false;
在这里插入图片描述

如果退出的化;他后有回去了;永久改变;

1./usr/local/hive/apache-hive-1.2.2-bin/bin/
2.然后编辑(隐藏文件) vi .hiverc
添加:
set hive.cli.print.header=true;
set hive.resultset.use.unique.column.names=false;

在这里插入图片描述
保存即可;
在这里插入图片描述

还有一个参数:修改后让我们进行数据查询的时候不走MapReduce的操作:
1.查询当前的stu03表;
在这里插入图片描述
2.我们统计下;使用函数操作:
在这里插入图片描述
发现他走的是MapReduce的操作;这样就非常的慢;
设置这个参数就可以了;set hive.exec.mode.local.auto=true; 开起本地模式:数据量比较小的时候用本地; 当数据量大的时候;用集群;操作把这个地方改成false;

当一个job满足如下条件才能真正使用本地模式:
1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
3.job的reduce数必须为0或者1

在这里插入图片描述

在这里插入图片描述
这样的我们安装操作基本就完成。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值