日志增强解析处理

最新推荐文章于 2022-08-01 14:23:39 发布

ljtyxl

最新推荐文章于 2022-08-01 14:23:39 发布

阅读量633

点赞数

分类专栏： bigdata 文章标签： mapreduce 数据清洗

本文链接：https://blog.csdn.net/u014033218/article/details/75446669

版权

bigdata 专栏收录该内容

102 篇文章 0 订阅

订阅专栏

现有一些原始日志需要做增强解析处理，流程：
1、从原始日志文件中读取数据
2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志
3、如果成功增强，则输出到增强结果目录；如果增强失败，则抽取原始数据中URL字段输出到待爬清单目录
分析
程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputformat来实现
实现
实现要点：
1、在mapreduce中访问外部资源
2、自定义outputformat，改写其中的recordwriter，改写具体输出数据的方法write()

代码实现如下：
数据库获取数据的工具
package com.ljt.logenhance;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;
import java.util.HashMap;
import java.util.Map;
/**
*
*

Title: DBLoader

功能描述::数据库获取数据的工具

Company: adteach

* @author 刘建涛 *
* @date 2017年7月19日下午7:41:05
* @version 1.0
*/
public class DBLoader {

public static void dbLoader(Map<String, String> ruleMap) throws Exception {

    Connection conn = null;
    Statement st = null;
    ResultSet res = null;

    try {
        Class.forName("com.mysql.jdbc.Driver");
        conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/urldb", "root", "root");
        st = conn.createStatement();
        res = st.executeQuery("select url,content from url_rule");
        while (res.next()) {
            ruleMap.put(res.getString(1), res.getString(2));
        }

    } finally {
        try{
            if(res!=null){
                res.close();
            }
            if(st!=null){
                st.close();
            }
            if(conn!=null){
                conn.close();
            }

        }catch(Exception e){
            e.printStackTrace();
        }
    }

}

}

package com.ljt.logenhance;

import java.io.IOException;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
* 自定义一个outputformat
* maptask或者reducetask在最终输出时，先调用OutputFormat的getRecordWriter方法拿到一个RecordWriter
* 然后再调用RecordWriter的write(k,v)方法将数据写出
*
* @author
*
*/
public class LogEnhanceOutputFormat extends FileOutputFormat

ljtyxl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
日志增强解析处理

现有一些原始日志需要做增强解析处理，流程： 1、从原始日志文件中读取数据 2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、如果成功增强，则输出到增强结果目录；如果增强失败，则抽取原始数据中URL字段输出到待爬清单目录分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputfo
复制链接

扫一扫