hive稀缺大宽表去重

最新推荐文章于 2024-01-04 15:37:16 发布

linjj91

最新推荐文章于 2024-01-04 15:37:16 发布

阅读量563

点赞数

分类专栏： Hadoop 文章标签： hive 大数据 pandas

本文链接：https://blog.csdn.net/ljj654/article/details/117086678

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Pandas库处理Hive中的大宽表，通过fillna填充NULL值并按ID去重，保持最新不为空的数据。首先，通过Hive连接获取数据，然后用DataFrame进行排序和去重操作。此外，还提到了在Hive中将空字符转换为NULL以便于Pandas识别的方法。

摘要由CSDN通过智能技术生成

项目背景

hive下有一张表，是从多张表整合进来的稀缺大宽表，需要按id字段去重，保留最新的值不为空的数据，示例数据如下图，可以看到有很多NULL字段值

处理思路

使用pandas dataframe 内置 fillna 函数填补数据

代码

from impala.dbapi import connect
import pandas as pd

conn = connect(host='192.168.0.16', port=10000, user=None, password=None, database='default', auth_mechanism="PLAIN")
cur = conn.cursor()
cur.execute("desc default.test")
d = cur.fetchall()
cols = []
for i in d:
    cols.append(i[0])
    if i[0]=='pt':
        break

cur.execute('select * from default.test')
data = cur.fetchall()
df = pd.DataFrame(data, columns=cols)
newDf = df.sort_values(['id','sj']).fillna(method='ffill').drop_duplicates(subset=['id'], keep="last", inplace=False)
print(newDf)

去重效果如下：

在这里插入图片描述

其他说明

hive 表中可能存在空字符字段值，需要让它变成 NULL，这样 pandas 才能通过 isna() 识别到该字段是否需要填充，可以通过下面的语句配置

# 测试表
drop table if exists default.test;
create table if not exists default.test (
    `id` string, `xm` string, `xb`string, `nl` string, `sj` string
) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile;
# 设置空值格式
alter table default.test set serdeproperties ('serialization.null.format'='');

样本数据

1,小明,,,20210101
1,,男,,20210102
1,,,19,20210103
2,,女,,20210101
2,小红,,,20210102
2,,,21,20210103
3,小东,,,20210101
3,,男,,20210102
3,,,22,20210103

上传数据到hdfs：hdfs dfs -put data /tmp
载入数据到hive表：load data inpath '/tmp/data' into table default.test;

linjj91

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录