Google Cloud + Hive 讲解

最新推荐文章于 2024-06-04 09:30:36 发布

CHNMSCS

最新推荐文章于 2024-06-04 09:30:36 发布

阅读量1.8k

点赞数 2

分类专栏：谷歌云文章标签：谷歌云 Hive

本文链接：https://blog.csdn.net/BSCHN123/article/details/111940952

版权

谷歌云专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这篇博客主要讲解如何在Google Cloud上使用Hive.

这篇博客使用的数据是movies_few.csv.
部分截图如下：
在这里插入图片描述
步骤一：创建Google Cloud Project:
首先进入Google Cloud Console的界面：

点击"New Project"

进入到这个界面，必须有Billing account, 不然是不能使用Google Cloud的

步骤二：创建Google Cloud Storage bucket来存储要使用的数据
进入Storage -> Browser
在这里插入图片描述
创建一个storage bucket:

步骤三：创建好bucket之后，就创建一个folder来存储要做实验的数据：

步骤四：上传需要做实验的数据到创建好的folder：
有两种办法上传：

跟下面的截图一样做法
可以直接把文件拖拽进来

步骤五: 创建一个Dataproc Cluster
必须得将Cloud Dataproc API enabled了，不然是用不了的

在这里插入图片描述

步骤六：点击SSH进入master node:

步骤七：可以查看dataset in cloud storage

# 命令
gsutil ls gs://hive-test-example/example-data

在这里插入图片描述
步骤八：使用jdbc hive 来运行Beeline shell

# 命令
beeline -u jdbc:hive2://localhost:10000/default -n
       [myusername@clustername-m] -d
       org.apache.hive.jdbc.HiveDriver

在这里插入图片描述
这时就可以使用HIVE 命令来做练习了

步骤九：创建一个table

在这里插入图片描述
这样就代表成功了
Note:

CREATE TABLE命令中的EXTERNAL子句将把源数据文件留在云文件存储(CFS)中。使用这种方法，原始数据将保持在原来的位置(在本例中是gs: bucket)，但是可以操作新创建的表。
另一方面，你可以使用CREATE TABLE，不带EXTERNAL子句，将数据从CFS (gs:在这种情况下)以表的形式移动到HIVE文件系统中。一旦数据被移动到HIVE表中，文件就会从常规CFS中删除。

步骤十：数table里一共有多少行：
在这里插入图片描述
步骤十一：从table里选择10行：