Hive是大数据平台的查询语句,其语法基本与SQL类似,小编在自己笔记本电脑上VirtualBox虚拟机上通过docker安装了一个docker-hive-on-tez容器,就可以练习了。我会通过笔记本电脑安装hive、hive实战数据准备、hive语句实战三个环节介绍。
1.笔记本电脑安装Hive
要在电脑提前安装VirtualBox和Docker,最好通过Xshell连接虚拟机操作,小编自己搞的是Linux环境的:
注:关于Linux和docker命令需要提前熟悉以下(小编在此附上链接)
https://www.runoob.com/docker/docker-tutorial.html
接下来就是安装和启动hive了,一共四步:
1.拉取镜像
docker pull prasanthj/docker-hive-on-tez
2.安装镜像
docker run -itd --name hive prasanthj/docker-hive-on-tez
3.进入容器,启动
docker exec -it 4d2e4155eff8 /bin/bash
/etc/hive-bootstrap.sh -bash
4.最后用命令'hive'就能进入hive环境了
因为hive已经在docker里面了,下次只需要启动容器就可以了:
docker container start 容器id:启动已经终止的容器,但不会进入容器,容器在后台执行
2.hive实战数据准备
环境搭建起来了,要有数据才能进行语句练习。所以,下一步,得收集收集并导进去环境里面(自然而然需要创建表)
小编练习用到的数据的Youtube的数据集,链接传送门:
数据集介绍:https://blog.csdn.net/u011812294/article/details/75452297
数据集下载:http://netsg.cs.sfu.ca/youtubedata/
step1:数据清洗
直接下载下来的数据不能直接用,要做一轮清洗,小编用python实现
import os
import re
import time
import zipfile
from threading import Thread
class clear_data():
def __init__(self,path,out_path,clear_path):
'''
:param path: 压缩文件所在路径
:param out_path: 加压后文件保存路径