hive 与 hdfs 文件的关系

  • Hive 是一个建立在hadoop文件系统上的数据仓库架构,可以用其对hdfs上数据进行分析与管理。
  • 实际上是将hdfs上的文件映射成table(按文件格式创建table,然后hive的数据仓库会生成对应的目录,默认的仓库路径:user/hive/warehouse/tablename,目录名与这个表名相同,这时只要将符合table定义的文件加载到该目录便可通过Hql对整个目录的文件进行查询了。
  • 将数据加载到该目录可以用hdfs dfs -put 命令直接添加到该目录;
  • 也可以通过load data local inpath ‘user/test.txt’ into table
    tableName,通过load命令加载数据与通过put命令加载文件的结果是一样的,即在user/hive/warehouse/tablename
    目录下都会有加载进来的文件,如果用load命令加载的是hdfs上的文件则会将原hdfs目录下对应的文件移动至hive的仓库目录下),并将这些元数据保存到关系型数据库中,元数据存储着表所对应的文件路径,表的列与分区,表创建时间,文件大小等属性;
  • 同时支持用户运用类sql对文件进行操作,这个操作主要是查询。
  • 7
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值