本地电脑Hive语句实战

Hive是大数据平台的查询语句,其语法基本与SQL类似,小编在自己笔记本电脑上VirtualBox虚拟机上通过docker安装了一个docker-hive-on-tez容器,就可以练习了。我会通过笔记本电脑安装hive、hive实战数据准备、hive语句实战三个环节介绍。

1.笔记本电脑安装Hive

要在电脑提前安装VirtualBox和Docker,最好通过Xshell连接虚拟机操作,小编自己搞的是Linux环境的:

注:关于Linux和docker命令需要提前熟悉以下(小编在此附上链接)

https://www.runoob.com/docker/docker-tutorial.html

接下来就是安装和启动hive了,一共四步:

1.拉取镜像

docker pull prasanthj/docker-hive-on-tez

2.安装镜像

docker run -itd --name hive prasanthj/docker-hive-on-tez

3.进入容器,启动

docker exec -it 4d2e4155eff8 /bin/bash

/etc/hive-bootstrap.sh -bash

4.最后用命令'hive'就能进入hive环境了

因为hive已经在docker里面了,下次只需要启动容器就可以了:

docker container start 容器id:启动已经终止的容器,但不会进入容器,容器在后台执行

2.hive实战数据准备

环境搭建起来了,要有数据才能进行语句练习。所以,下一步,得收集收集并导进去环境里面(自然而然需要创建表)

小编练习用到的数据的Youtube的数据集,链接传送门:

数据集介绍:https://blog.csdn.net/u011812294/article/details/75452297

数据集下载:http://netsg.cs.sfu.ca/youtubedata/

step1:数据清洗

直接下载下来的数据不能直接用,要做一轮清洗,小编用python实现

import os
import re
import time
import zipfile
from threading import Thread

class clear_data():


    def __init__(self,path,out_path,clear_path):
        '''


        :param path: 压缩文件所在路径
        :param out_path: 加压后文件保存路径
   
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

整得咔咔响

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值