执行本地文件加载在hive中的py脚本及依赖安装记录

最新推荐文章于 2023-05-25 14:05:04 发布

奋斗的小蚁

最新推荐文章于 2023-05-25 14:05:04 发布

阅读量402

点赞数

分类专栏：大数据cdh平台

本文链接：https://blog.csdn.net/qq_30552441/article/details/94576094

版权

大数据cdh平台专栏收录该内容

27 篇文章 0 订阅

订阅专栏

脚本demo

脚本功能：把本地文件加载在hive中

#!/usr/bin/env python 
# encoding: utf-8 

"""
@version: v1.0
@author: chey
@contact: ~
@software: PyCharm
@file: test.py.py
@time: 2019-07-03 15:56
"""

"""
创建分区表：
CREATE TABLE test_part
(
name string,
sex string
)
partitioned by (month string)
row format delimited fields terminated by '\t';
"""
"""
t1.txt
陈二	男生	201907
张三	男生	201907
里斯	女生	201907
王五	女生	201907
"""
from pyhive import hive

# 创建连接
conn = hive.Connection(host='xx.xx.xx.xxx', port=10000, username='bigdata', database='default')
cursor = conn.cursor()

# 创建目录
cursor.execute("dfs -mkdir -p /user/hive/warehouse/test_part/month=201907")
# 上传目录
cursor.execute("load data local inpath '/opt/datas/t1.txt' into table test_part partition(month='201907')")

# 查询
cursor.execute("select * from test_part where month='201907'")
for result in cursor.fetchall():
    print(result)

依赖安装记录

$ sudo pip3 install pyhive
$ sudo pip3 install thrift
$ sudo pip3 install sasl
$ sudo yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64
$ sudo pip3 install sasl
$ sudo pip3 install thrift_sasl

总结一下：

要load的数据文件必须在hiveserver2所在节点，且文件所在的这个文件夹要有x权限，不然执行不然load操作，报“Invalid path ‘/path’:No files matching path file”异常。
可以使用LOAD DATA方式加载HDFS上的数据，就不会有这样的限制。
hiveserver2所在节点不必要装python环境，哪个节点跑python脚本就在那个节点装下python3环境以及依赖库即可。
跑python脚本的节点可以是集群上的节点，也可以是集群外的节点，更没必要一定放在有hive的节点上执行。

奋斗的小蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
执行本地文件加载在hive中的py脚本及依赖安装记录

脚本demo脚本功能：把本地文件加载在hive中#!/usr/bin/env python # encoding: utf-8 """@version: v1.0@author: chey@contact: ~@software: PyCharm@file: test.py.py@time: 2019-07-03 15:56""""""创建分区表：CREATE TA...
复制链接

扫一扫