Hive实战：网址去重

最新推荐文章于 2024-08-22 16:30:09 发布

林边上的猫

最新推荐文章于 2024-08-22 16:30:09 发布

阅读量395

点赞数 7

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/linlong2003/article/details/135761866

版权

本文介绍了如何使用Hive框架对三个包含网址的文本文件进行去重操作，包括数据准备、创建Hive外部表、利用DISTINCT关键字实现去重，并验证了去重效果。

摘要由CSDN通过智能技术生成

一、实战概述

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.1
172.16.0.1
10.0.0.3

192.168.1.4
172.16.0.3
10.0.0.4
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.1
172.16.0.1 
10.0.0.1

192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5
192.168.1.1
172.16.0.1
10.0.0.3

基于HDFS数据文件创建Hive外部表
执行语句： CREATE EXTERNAL TABLE ips (ip STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n' LOCATION '/deduplicate/input';
这里创建了一个名为ips的外部表，字段为单列ip，每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行，所以字段间用换行符\n分隔。

基于查询结果创建新表
执行语句： CREATE TABLE deduplicated_ips AS SELECT DISTINCT ip FROM ips;
通过上述SQL语句，我们在Hive内部创建了一个新的表deduplicated_ips，其中存储了从unique_ips表中提取的所有不重复的IP地址。

本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS，接着启动Hive服务与客户端，创建外部表加载数据，并用DISTINCT从原始表中提取不重复IP至新内部表，最终成功实现去重目标，展示了Hive处理大规模文本数据的高效能与便捷性。

关注