写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。
今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种
:
- (1)、从本地文件系统中导入数据到Hive表;
- (2)、从HDFS上导入数据到Hive表;
- (3)、从别的表中查询出相应的数据并导入到Hive表中;
- (4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。
分享之前我还是介绍下我的共粽好「CoXie 带你学编程」(id:Pythoni521), 不管是大学生,还是工作人士, 只要想学,都欢迎进入交流
我会对每一种数据的导入进行实际的操作,因为纯粹的文字让人看起来很枯燥,而且学起来也很抽象。好了,开始操作!
文章目录
一、从本地文件系统中导入数据到Hive表
先在Hive里面创建好表,如下:
hive> create table wyp
> (id int, name string,
> age int, tel string)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t'
> STORED AS TEXTFILE;
OK
Time taken: 2.832 seconds
这个表很简单,只有四个字段,具体含义我就不解释了。本地文件系统里面有个 /home/wyp/wyp.txt
文件,内容如下:
[wyp@master ~]$ cat wyp.txt
1 wyp 25 13188888888888
2 test 30 13888888888888