Hadoop
文章平均质量分 66
Hadoop相关技术分享
linjj91
数据集成、整合、治理资深从业者,热衷于研究各种大数据技术在数据治理领域的应用。
展开
-
hive稀缺大宽表去重
项目背景hive下有一张表,是从多张表整合进来的稀缺大宽表,需要按id字段去重,保留最新的值不为空的数据,示例数据如下图,可以看到有很多NULL字段值处理思路使用pandas dataframe 内置 fillna 函数填补数据代码from impala.dbapi import connectimport pandas as pdconn = connect(host='192.168.0.16', port=10000, user=None, password=None, da原创 2021-05-20 18:13:51 · 549 阅读 · 0 评论 -
离线安装CDH6
安装CDH,离线安装CDH , CDH6安装部署原创 2021-02-20 10:34:11 · 983 阅读 · 2 评论 -
安装Hadoop2.7(单机)
安装Hadoop,离线安装Hadoop,Hadoop2.7.7原创 2021-02-20 10:22:11 · 397 阅读 · 0 评论