本地电脑Hive语句实战

最新推荐文章于 2022-08-13 00:07:03 发布

整得咔咔响

最新推荐文章于 2022-08-13 00:07:03 发布

阅读量431

点赞数

分类专栏：数学基础文章标签： hadoop docker 大数据 hive java

本文链接：https://blog.csdn.net/qq_27388259/article/details/112168808

版权

Hive是大数据平台的查询语句，其语法基本与SQL类似，小编在自己笔记本电脑上VirtualBox虚拟机上通过docker安装了一个docker-hive-on-tez容器，就可以练习了。我会通过笔记本电脑安装hive、hive实战数据准备、hive语句实战三个环节介绍。

1.笔记本电脑安装Hive

要在电脑提前安装VirtualBox和Docker，最好通过Xshell连接虚拟机操作，小编自己搞的是Linux环境的：

注:关于Linux和docker命令需要提前熟悉以下(小编在此附上链接）

https://www.runoob.com/docker/docker-tutorial.html

接下来就是安装和启动hive了，一共四步：

1.拉取镜像

docker pull prasanthj/docker-hive-on-tez

2.安装镜像

docker run -itd --name hive prasanthj/docker-hive-on-tez

3.进入容器，启动

docker exec -it 4d2e4155eff8 /bin/bash

/etc/hive-bootstrap.sh -bash

4.最后用命令'hive'就能进入hive环境了

因为hive已经在docker里面了，下次只需要启动容器就可以了：

docker container start 容器id：启动已经终止的容器，但不会进入容器，容器在后台执行

2.hive实战数据准备

环境搭建起来了，要有数据才能进行语句练习。所以，下一步，得收集收集并导进去环境里面（自然而然需要创建表）

小编练习用到的数据的Youtube的数据集，链接传送门：

数据集介绍：https://blog.csdn.net/u011812294/article/details/75452297

数据集下载：http://netsg.cs.sfu.ca/youtubedata/

step1:数据清洗

直接下载下来的数据不能直接用，要做一轮清洗，小编用python实现

import os
import re
import time
import zipfile
from threading import Thread

class clear_data():


    def __init__(self,path,out_path,clear_path):
        '''


        :param path: 压缩文件所在路径
        :param out_path: 加压后文件保存路径