这篇博客主要讲解如何在Google Cloud上使用Hive.
这篇博客使用的数据是movies_few.csv.
部分截图如下:
步骤一:创建Google Cloud Project:
首先进入Google Cloud Console的界面:
点击"New Project"
进入到这个界面,必须有Billing account, 不然是不能使用Google Cloud的
步骤二:创建Google Cloud Storage bucket来存储要使用的数据
进入Storage -> Browser
创建一个storage bucket:
步骤三:创建好bucket之后,就创建一个folder来存储要做实验的数据:
步骤四:上传需要做实验的数据到创建好的folder:
有两种办法上传:
- 跟下面的截图一样做法
- 可以直接把文件拖拽进来
步骤五: 创建一个Dataproc Cluster
必须得将Cloud Dataproc API enabled了,不然是用不了的
步骤六:点击SSH进入master node:
步骤七:可以查看dataset in cloud storage
# 命令
gsutil ls gs://hive-test-example/example-data
步骤八:使用jdbc hive 来运行Beeline shell
# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
[myusername@clustername-m] -d
org.apache.hive.jdbc.HiveDriver
这时就可以使用HIVE 命令来做练习了
步骤九:创建一个table
这样就代表成功了
Note:
- CREATE TABLE命令中的EXTERNAL子句将把源数据文件留在云文件存储(CFS)中。使用这种方法,原始数据将保持在原来的位置(在本例中是gs: bucket),但是可以操作新创建的表。
- 另一方面,你可以使用CREATE TABLE,不带EXTERNAL子句,将数据从CFS (gs:在这种情况下)以表的形式移动到HIVE文件系统中。一旦数据被移动到HIVE表中,文件就会从常规CFS中删除。
步骤十:数table里一共有多少行:
步骤十一:从table里选择10行:
步骤十二:退出HIVE terminal
步骤十三: 删除cluster, cloud storage bucket:
如果觉得不错,就点赞或者关注或者留言~~
谢谢~ ~