Google Cloud + Hive 讲解

这篇博客主要讲解如何在Google Cloud上使用Hive.

这篇博客使用的数据是movies_few.csv.
部分截图如下:
在这里插入图片描述
步骤一:创建Google Cloud Project:
首先进入Google Cloud Console的界面:
在这里插入图片描述
点击"New Project"
在这里插入图片描述
进入到这个界面,必须有Billing account, 不然是不能使用Google Cloud的
在这里插入图片描述
步骤二:创建Google Cloud Storage bucket来存储要使用的数据
进入Storage -> Browser
在这里插入图片描述
创建一个storage bucket:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤三:创建好bucket之后,就创建一个folder来存储要做实验的数据:
在这里插入图片描述
在这里插入图片描述
步骤四:上传需要做实验的数据到创建好的folder:
有两种办法上传:

  • 跟下面的截图一样做法
  • 可以直接把文件拖拽进来
    在这里插入图片描述
    步骤五: 创建一个Dataproc Cluster
    必须得将Cloud Dataproc API enabled了,不然是用不了的
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤六:点击SSH进入master node:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
步骤七:可以查看dataset in cloud storage

# 命令
gsutil ls gs://hive-test-example/example-data

在这里插入图片描述
步骤八:使用jdbc hive 来运行Beeline shell

# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
       [myusername@clustername-m] -d
       org.apache.hive.jdbc.HiveDriver

在这里插入图片描述
这时就可以使用HIVE 命令来做练习了

步骤九:创建一个table

在这里插入图片描述
这样就代表成功了
Note:

  • CREATE TABLE命令中的EXTERNAL子句将把源数据文件留在云文件存储(CFS)中。使用这种方法,原始数据将保持在原来的位置(在本例中是gs: bucket),但是可以操作新创建的表。
  • 另一方面,你可以使用CREATE TABLE,不带EXTERNAL子句,将数据从CFS (gs:在这种情况下)以表的形式移动到HIVE文件系统中。一旦数据被移动到HIVE表中,文件就会从常规CFS中删除。

步骤十:数table里一共有多少行:
在这里插入图片描述
步骤十一:从table里选择10行:
在这里插入图片描述

步骤十二:退出HIVE terminal
在这里插入图片描述

步骤十三: 删除cluster, cloud storage bucket:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如果觉得不错,就点赞或者关注或者留言~~
谢谢~ ~

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值