python3处理dataframe数据存入hive数据库

hive数据库是基于HDFS的一个数据库,是对hdfs数据的一个映射关系。

注意:hive数据库存入数据的时候不建议使用insert into语句来进行插入,这样的的操作方式在效率上会很低效。

下面来说一下我的经历:

1、使用python3代码把数据存入数据库可以把数据写入csv或者txt文件中,使用分隔符分割(分隔符需要与hive进行映射的表分隔符一致)

# Python3把数据写入csv   通过pandas来写入csv并指定分隔符号,

df.to_csv(’路径/文件名.csv‘,index=None,header=False,sep='|')  #sep是用来指定分隔符号的,默认是逗号

2、上面的操作会把dataframe输出到你指定的路径下,接下来就需要把它上传到hadoop的hdfs目录下。

3、首先要创建一张hive表,然后使用show create table 表名;进行查看表的location路径,如下图

4、确定好路径之后就是上传你的csv了,上传命令是:

hdfs dfs -put 数据文件 table表名本地位置

5、如果想要在代码中操作也可以

import os 

os.system(hdfs dfs -put 数据文件 table表名本地位置)<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值