离线日志分析平台day01

需求解析:

分析数据、清洗数据时候。首先弄清楚数据的来源。
数据的所有来源是程序。比如:提供web服务的web程序、后台统计的程序等。
www.baidu.com等门户网站提供web服务,网站后台周期性的统计用户或者商品的行为的为后台程序。

数据的形态
两种:日志文件、数据流[比如mysql里面的数据]。
日志文件可以直接读取,而mysql的文件要通过提供的接口来读取。
对比:
由于数据流的接口要求比较高。比如有些语言不支持写入mysql。所以日志文件是主要形态。数据流是在条件允许的情况下用于实时分析统计。两者可以相互转化。
日志文件好处:
便于分析、便于跨平台、跨语言。

1、UGC : User Generated Content,也就是用户生成的内容。
2、UV:(unique visitor),指访问某个站点或点击某条新闻的不同用户的人数。现已引申为各个维度的uv泛称。
3、PV:(pageview),即页面浏览量,或点击量。
4、DAU : daily active user,日活跃用户数量;MAU : 月活跃用户量
当天或者当月在线一定时间以上的人数。
5、ARPU : Average Revenue Per User 即每用户平均收入,用于衡量电信运营商和互联网公司业务收入的指标。
6、新增用户数、登录用户数、N日留存(率)、转换率、跳出数(率)。

费用标准
7、CPC: 每次点击广告付费,Cost Per Click
8、CPA: 每行动成本,Cost Per Action 按广告回应的有效问卷或定单来计费。
9、CPR: 每回应成本,Cost Per Response 对网站的人工咨询产生了回应的人数计费。
10、CPP:每购买成本,Cost Per Purchase,在网络用户点击旗帜广告并进行在线交易后的计费。

工程创建和配置

首先创建maven工程,选择quickstart框架
在这里插入图片描述
之后的正常填写groupID和artifactID

导入POM依赖:



 <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.8</maven.compiler.source>  <!--改成1.81 -->
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
    <!-- log4j -->
    <!-- https://mvnrepository.com/artifact/log4j/log4j -->
    <dependency>
      <groupId>log4j</groupId>
      <artifactId>log4j</artifactId>
      <version>1.2.17</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/redis.clients/jedis -->
    <dependency>
      <groupId>redis.clients</groupId>
      <artifactId>jedis</artifactId>
      <version>2.9.0</version>
    </dependency>

    <!-- hadoop -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>2.6.4</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-core</artifactId>
      <version>1.2.1</version>
    </dependency>
  </dependencies>

  <build>
    <plugins>
      <plugin>
        <artifactId>maven-assembly-plugin</artifactId>
        <configuration>
          <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
          </descriptorRefs>
        </configuration>
        <executions>
          <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
              <goal>single</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
    </plugins>
  </build>

resource文件夹中所需的资源:

###############################################
# 一下的配置文件都是以log4j.开头
#    一种就是log4j.properties | log4j.xml
# 最最重要就是第一个log4j.rootLogger,指定log4j日志的输出界别(目的地)
# log4j.rootLogger=INFO,stdout,file意思为:
# 日志可以输INFO级别以上的数据,将日志输出到stdout标准控制输出(控制台),输出到file
#
# 常见的日志输出级别:DEBUG(调试) < INFO(信息) < WARN(警告) < ERROR(错误) < FATAL(致命错误)
#  日志输出的顺序:和日志输出级别一致,即配置为一个级别,输出的内容只能是该级别及其以上级别的信息
#  INFO(输出的包括 INFO WARN ERROR FATAL)
#  ERROR(ERROR FATAL)
#  所以,一般情况下:在开发,测试环境中,日志的级别为DEBUG;在生产环境中,日志级别为INFO
#
#  输出目的地:
#     日志输出的各种各样的目的地,都是通过Appender来进行实现追加的
# 我们在appender中看到的PatternLayout的格式如下:
#
#%m   输出代码中指定的消息
#%n   输出一个回车换行符,Windows平台为“\r\n”,Unix平台为“\n”
#%p   输出优先级,即日志级别:DEBUG,INFO,WARN,ERROR,FATAL
#%r   输出自应用启动到输出该log信息耗费的毫秒数
#%c   输出所属的类目,通常就是所在类的全名
#%t   输出产生该日志事件的线程名
#%d   输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,比如:%d{yyy MMM dd HH:mm:ss , SSS},输出类似:2002年10月18日  22 : 10 : 28 , 921
#%l   输出日志事件的发生位置,包括类目名、发生的线程,以及在代码中的行数。举例:Testlog4.main(TestLog4.java: 10 ) log4j配置详解 - stone - stonexmx 的博客
# 常见的Appender
# ConsoleAppender        日志添加到控制台        
# FileAppender                  输出到文件
# DailyRollingFileAppender    每天生成一个日志文件

###############################################
##系统日志
log4j.rootLogger=INFO,stdout

##自定义日志的输出级别--->业务日志

log4j.logger.access = INFO, access
log4j.logger.ugchead = INFO, ugchead
log4j.logger.ugctail = INFO, ugctail

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d{
   yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n
##输出到日志文件
log4j.appender.file = org.apache.log4j.FileAppender
log4j.appender.file.File = ./logs/platform.log
log4j.appender.file.layout=org.apache.log4j.PatternLayout 
log4j.appender.file.layout.ConversionPattern=%d{
   yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n


### 输出到日志文件 ###
log4j.appender.R = org.apache.log4j.DailyRollingFileAppender
log4j.appender.R.File = ./logs/data-clean.log
log4j.appender.R.Append = true
log4j.appender.R.Threshold = DEBUG
log4j.appender.R.DatePattern = '.'yyyy-MM-dd
log4j.appender.R.layout = org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern = %d{
   yyyy-MM-dd HH:mm:ss} [%t] [%c] [%p] - %m%n


### 保存异常信息到单独文件 ###
log4j.appender.access = org.apache.log4j.DailyRollingFileAppender
log4j.appender.access.File =  /home/bigdata/logs/data-clean/data-access.log
log4j.appender.access.Append = true
log4j.appender.access.DatePattern = '.'yyyy-MM-dd
log4j.appender.access.layout = org.apache.log4j.PatternLayout
log4j.appender.access.layout.ConversionPattern = %m%n

log4j.appender.ugchead = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugchead.File =  /home/bigdata/logs/data-clean/data-ugchead.log
log4j.appender.ugchead.Append = true
log4j.appender.ugchead.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugchead.layout = org.apache.log4j.PatternLayout
log4j.appender.ugchead.layout.ConversionPattern = %m%n

log4j.appender.ugctail = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugctail.File =  /home/bigdata/logs/data-clean/data-ugctail.log
log4j.appender.ugctail.Append = true
log4j.appender.ugctail.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugctail.layout = org.apache.log4j.PatternLayout
log4j.appender.ugctail.layout.ConversionPattern = %m%n

redis.conf

redis.host=bigdata01
redis.port=6379
redis.password=123456
redis.timeout=60000

新建data文件夹导入IP地址库。利用IP地址库对IP进行本地解析:

package com.aura.bigdata.clean.util;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.util.Arrays;
import java.nio.charset.Charset;
import java.util.Random;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.locks.ReentrantLock;

/**
 * 就是根据用户提供的ip地址,获取当前用户处于哪个省的那个市?
 * 以此作为统计维度,可以按照省来统计
 */
public class IP {
   

    public static String randomIp() {
   
        Random r = new Random();
        StringBuffer str = new StringBuffer();
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(r.nextInt(1000000) % 255);
        str.append(".");
        str.append(0);

        return str.toString();
    }

    public static void main(String[] args){
   
        IP.load("data/17monipdb.dat");
        System.out.println(Arrays.toString(IP.find("210.26.111.65")));
    }

    public static boolean enableFileWatch = false;

    private static int offset;
    private static int[] index = new int[256];
    private static ByteBuffer dataBuffer;
    private static ByteBuffer indexBuffer;
    private static Long lastModifyTime = 0L;
    private static File ipFile ;
    private static ReentrantLock lock = new ReentrantLock();

    public static void load(String filename) {
   
        ipFile = new File(filename);
        load();
        if (enableFileWatch) {
   
            watch();
        }
    }

    public static void load(String filename, boolean strict) throws Exception {
   
        ipFile = new File(filename);
        if (strict) {
   
            int contentLength = Long.valueOf(ipFile.length()).intValue();
            if (contentLength < 512 * 1024) {
   
                throw new Exception("ip data file error.");
            }
        }
        load();
        if (enableFileWatch) {
   
            watch();
        }
    }

    public static String[] find(String ip) {
   
        int ip_prefix_value = new Integer(ip.substring(0, ip.indexOf(".")));
        long ip2long_value  = ip2long(ip);
        int start = index[ip_prefix_value];
        int max_comp_len = offset - 1028;
        long index_offset = -1;
        int index_length = -1;
        byte b = 0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值