离线日志分析平台day01

最新推荐文章于 2022-04-27 13:23:50 发布

KujyouRuri

最新推荐文章于 2022-04-27 13:23:50 发布

阅读量328

点赞数

本文链接：https://blog.csdn.net/KujyouRuri/article/details/116589945

版权

本文介绍了离线日志分析平台的需求解析，包括数据来源、形态及日志文件的优势。讲解了如何创建和配置工程，依赖项管理，并提供了资源文件配置示例。进一步探讨了日志采集流程，使用Flume进行配置和模拟日志生成。最后，展示了如何利用MapReduce计算PV和UV。

摘要由CSDN通过智能技术生成

需求解析：

分析数据、清洗数据时候。首先弄清楚数据的来源。
数据的所有来源是程序。比如：提供web服务的web程序、后台统计的程序等。
www.baidu.com等门户网站提供web服务，网站后台周期性的统计用户或者商品的行为的为后台程序。

数据的形态
两种：日志文件、数据流[比如mysql里面的数据]。
日志文件可以直接读取，而mysql的文件要通过提供的接口来读取。
对比：
由于数据流的接口要求比较高。比如有些语言不支持写入mysql。所以日志文件是主要形态。数据流是在条件允许的情况下用于实时分析统计。两者可以相互转化。
日志文件好处：
便于分析、便于跨平台、跨语言。

1、UGC : User Generated Content，也就是用户生成的内容。
2、UV:(unique visitor)，指访问某个站点或点击某条新闻的不同用户的人数。现已引申为各个维度的uv泛称。
3、PV：（pageview），即页面浏览量，或点击量。
4、DAU : daily active user，日活跃用户数量；MAU : 月活跃用户量
当天或者当月在线一定时间以上的人数。
5、ARPU : Average Revenue Per User 即每用户平均收入，用于衡量电信运营商和互联网公司业务收入的指标。
6、新增用户数、登录用户数、N日留存（率）、转换率、跳出数（率）。

费用标准
7、CPC：每次点击广告付费，Cost Per Click
8、CPA：每行动成本，Cost Per Action 按广告回应的有效问卷或定单来计费。
9、CPR：每回应成本，Cost Per Response 对网站的人工咨询产生了回应的人数计费。
10、CPP：每购买成本,Cost Per Purchase,在网络用户点击旗帜广告并进行在线交易后的计费。

工程创建和配置

首先创建maven工程，选择quickstart框架
在这里插入图片描述
之后的正常填写groupID和artifactID

导入POM依赖：



 <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.8</maven.compiler.source>  <!--改成1.81 -->
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!-- log4j -->
    <!-- https://mvnrepository.com/artifact/log4j/log4j -->
    <dependency>
      <groupId>log4j</groupId>
      <artifactId>log4j</artifactId>
      <version>1.2.17</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/redis.clients/jedis -->
    <dependency>
      <groupId>redis.clients</groupId>
      <artifactId>jedis</artifactId>
      <version>2.9.0</version>
    </dependency>

    <!-- hadoop -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>2.6.4</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-core</artifactId>
      <version>1.2.1</version>
    </dependency>
  </dependencies>

  <build>
    <plugins>
      <plugin>
        <artifactId>maven-assembly-plugin</artifactId>
        <configuration>
          <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
          </descriptorRefs>
        </configuration>
        <executions>
          <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
              <goal>single</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
    </plugins>
  </build>

resource文件夹中所需的资源:

###############################################
# 一下的配置文件都是以log4j.开头
#    一种就是log4j.properties | log4j.xml
# 最最重要就是第一个log4j.rootLogger,指定log4j日志的输出界别(目的地)
# log4j.rootLogger=INFO,stdout,file意思为：
# 日志可以输INFO级别以上的数据，将日志输出到stdout标准控制输出(控制台)，输出到file
#
# 常见的日志输出级别：DEBUG(调试) < INFO(信息) < WARN(警告) < ERROR(错误) < FATAL(致命错误)
#  日志输出的顺序：和日志输出级别一致，即配置为一个级别，输出的内容只能是该级别及其以上级别的信息
#  INFO（输出的包括 INFO WARN ERROR FATAL）
#  ERROR(ERROR FATAL)
#  所以，一般情况下：在开发，测试环境中，日志的级别为DEBUG；在生产环境中，日志级别为INFO
#
#  输出目的地：
#     日志输出的各种各样的目的地，都是通过Appender来进行实现追加的
# 我们在appender中看到的PatternLayout的格式如下：
#
#%m   输出代码中指定的消息
#%n   输出一个回车换行符，Windows平台为“\r\n”，Unix平台为“\n”
#%p   输出优先级，即日志级别：DEBUG，INFO，WARN，ERROR，FATAL
#%r   输出自应用启动到输出该log信息耗费的毫秒数
#%c   输出所属的类目，通常就是所在类的全名
#%t   输出产生该日志事件的线程名
#%d   输出日志时间点的日期或时间，默认格式为ISO8601，也可以在其后指定格式，比如：%d{yyy MMM dd HH:mm:ss , SSS}，输出类似：2002年10月18日  22 ： 10 ： 28 ， 921
#%l   输出日志事件的发生位置，包括类目名、发生的线程，以及在代码中的行数。举例：Testlog4.main(TestLog4.java: 10 ) log4j配置详解 - stone - stonexmx 的博客
# 常见的Appender
# ConsoleAppender        日志添加到控制台        
# FileAppender                  输出到文件
# DailyRollingFileAppender    每天生成一个日志文件

###############################################
##系统日志
log4j.rootLogger=INFO,stdout

##自定义日志的输出级别--->业务日志

log4j.logger.access = INFO, access
log4j.logger.ugchead = INFO, ugchead
log4j.logger.ugctail = INFO, ugctail

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d{
   yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n
##输出到日志文件
log4j.appender.file = org.apache.log4j.FileAppender
log4j.appender.file.File = ./logs/platform.log
log4j.appender.file.layout=org.apache.log4j.PatternLayout 
log4j.appender.file.layout.ConversionPattern=%d{
   yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n


### 输出到日志文件 ###
log4j.appender.R = org.apache.log4j.DailyRollingFileAppender
log4j.appender.R.File = ./logs/data-clean.log
log4j.appender.R.Append = true
log4j.appender.R.Threshold = DEBUG
log4j.appender.R.DatePattern = '.'yyyy-MM-dd
log4j.appender.R.layout = org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern = %d{
   yyyy-MM-dd HH:mm:ss} [%t] [%c] [%p] - %m%n


### 保存异常信息到单独文件 ###
log4j.appender.access = org.apache.log4j.DailyRollingFileAppender
log4j.appender.access.File =  /home/bigdata/logs/data-clean/data-access.log
log4j.appender.access.Append = true
log4j.appender.access.DatePattern = '.'yyyy-MM-dd
log4j.appender.access.layout = org.apache.log4j.PatternLayout
log4j.appender.access.layout.ConversionPattern = %m%n

log4j.appender.ugchead = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugchead.File =  /home/bigdata/logs/data-clean/data-ugchead.log
log4j.appender.ugchead.Append = true
log4j.appender.ugchead.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugchead.layout = org.apache.log4j.PatternLayout
log4j.appender.ugchead.layout.ConversionPattern = %m%n

log4j.appender.ugctail = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugctail.File =  /home/bigdata/logs/data-clean/data-ugctail.log
log4j.appender.ugctail.Append = true
log4j.appender.ugctail.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugctail.layout = org.apache.log4j.PatternLayout
log4j.appender.ugctail.layout.ConversionPattern = %m%n

redis.conf

redis.host=bigdata01
redis.port=6379
redis.password=123456
redis.timeout=60000

新建data文件夹导入IP地址库。利用IP地址库对IP进行本地解析:

package com.aura.bigdata.clean.util;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.util.Arrays;
import java.nio.charset.Charset;
import java.util.Random;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.locks.ReentrantLock;

/**
 * 就是根据用户提供的ip地址，获取当前用户处于哪个省的那个市？
 * 以此作为统计维度，可以按照省来统计
 */
public class IP {
   

    public static String randomIp() {
   
        Random r = new Random();
        StringBuffer str = new StringBuffer();
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(0);

        return str.toString();
    }

    public static void main(String[] args){
   
        IP.load("data/17monipdb.dat");
        System.out.println(Arrays.toString(IP.find("210.26.111.65")));
    }

    public static boolean enableFileWatch = false;

    private static int offset;
    private static int[] index = new int[256];
    private static ByteBuffer dataBuffer;
    private static ByteBuffer indexBuffer;
    private static Long lastModifyTime = 0L;
    private static File ipFile ;
    private static ReentrantLock lock = new ReentrantLock();

    public static void load(String filename) {
   
        ipFile = new File(filename);
        load();
        if (enableFileWatch) {
   
            watch();
        }
    }

    public static void load(String filename, boolean strict) throws Exception {
   
        ipFile = new File(filename);
        if (strict) {
   
            int contentLength = Long.valueOf(ipFile.length()).intValue();
            if (contentLength < 512 * 1024) {
   
                throw new Exception("ip data file error.");
            }
        }
        load();
        if (enableFileWatch) {
   
            watch();
        }
    }

    public static String[] find(String ip) {
   
        int ip_prefix_value = new Integer(ip.substring(0, ip.indexOf(".")));
        long ip2long_value  = ip2long(ip);
        int start = index[ip_prefix_value];
        int max_comp_len = offset - 1028;
        long index_offset = -1;
        int index_length = -1;
        byte b = 0

最低0.47元/天解锁文章

KujyouRuri

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
离线日志分析平台day01

需求解析：分析数据、清洗数据时候。首先弄清楚数据的来源。数据的所有来源是程序。比如：提供web服务的web程序、后台统计的程序等。www.baidu.com等门户网站提供web服务，网站后台周期性的统计用户或者商品的行为的为后台程序。数据的形态两种：日志文件、数据流[比如mysql里面的数据]。日志文件可以直接读取，而mysql的文件要通过提供的接口来读取。对比：由于数据流的接口要求比较高。比如有些语言不支持写入mysql。所以日志文件是主要形态。数据流是在条件允许的情况下用于实时分析统计。
复制链接

扫一扫