Hadoop自定义读取文件

最新推荐文章于 2023-08-06 18:19:27 发布

jackydai987

最新推荐文章于 2023-08-06 18:19:27 发布

阅读量3k

点赞数

分类专栏： Hadoop 文章标签： hadoop classification null mapreduce command network

本文链接：https://blog.csdn.net/jackydai987/article/details/6244710

版权

本文介绍了如何在Hadoop MapReduce中自定义RecordReader类，以处理由换行符分隔的多行记录，例如日志分析场景。通过MyRecordReader类的实现，可以将连续的多行合并为一条记录，从而正确解析特定格式的数据。

摘要由CSDN通过智能技术生成

今天从网上看到点数据，很适合用MapReduce来分析一下。一条记录的格式如下：

[**] [1:538:15] NETBIOS SMB IPC$ unicode share access [**]
[Classification: Generic Protocol Command Decode] [Priority: 3]
09/04-17:53:56.363811 168.150.177.165:1051 -> 168.150.177.166:139
TCP TTL:128 TOS:0x0 ID:4000 IpLen:20 DgmLen:138 DF
***AP*** Seq: 0x2E589B8 Ack: 0x642D47F9 Win: 0x4241 TcpLen: 20

[**] [1:1917:6] SCAN UPnP service discover attempt [**]
[Classification: Detection of a Network Scan] [Priority: 3]
09/04-17:53:56.385573 168.150.177.164:1032 -> 239.255.255.250:1900
UDP TTL:1 TOS:0x0 ID:80 IpLen:20 DgmLen:161
Len: 133

大家可以看到要处理上面的记录，肯定不能用系统默认的TextInputFormat.class

所以要自己写一个读取类，从上面的格式可以看出。每一条记录由换行符分割，其余的行为一条记录（包括多行）。闲话少说，直接上代码：

public class MyRecordReader extends RecordReader<IntWritable, Text>{ private sta