需求解析:
分析数据、清洗数据时候。首先弄清楚数据的来源。
数据的所有来源是程序。比如:提供web服务的web程序、后台统计的程序等。
www.baidu.com等门户网站提供web服务,网站后台周期性的统计用户或者商品的行为的为后台程序。
数据的形态
两种:日志文件、数据流[比如mysql里面的数据]。
日志文件可以直接读取,而mysql的文件要通过提供的接口来读取。
对比:
由于数据流的接口要求比较高。比如有些语言不支持写入mysql。所以日志文件是主要形态。数据流是在条件允许的情况下用于实时分析统计。两者可以相互转化。
日志文件好处:
便于分析、便于跨平台、跨语言。
1、UGC : User Generated Content,也就是用户生成的内容。
2、UV:(unique visitor),指访问某个站点或点击某条新闻的不同用户的人数。现已引申为各个维度的uv泛称。
3、PV:(pageview),即页面浏览量,或点击量。
4、DAU : daily active user,日活跃用户数量;MAU : 月活跃用户量
当天或者当月在线一定时间以上的人数。
5、ARPU : Average Revenue Per User 即每用户平均收入,用于衡量电信运营商和互联网公司业务收入的指标。
6、新增用户数、登录用户数、N日留存(率)、转换率、跳出数(率)。
费用标准
7、CPC: 每次点击广告付费,Cost Per Click
8、CPA: 每行动成本,Cost Per Action 按广告回应的有效问卷或定单来计费。
9、CPR: 每回应成本,Cost Per Response 对网站的人工咨询产生了回应的人数计费。
10、CPP:每购买成本,Cost Per Purchase,在网络用户点击旗帜广告并进行在线交易后的计费。
工程创建和配置
首先创建maven工程,选择quickstart框架
之后的正常填写groupID和artifactID
导入POM依赖:
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<maven.compiler.source>1.8</maven.compiler.source> <!--改成1.81 -->
<maven.compiler.target>1.8</maven.compiler.target>
</properties>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
<scope>test</scope>
</dependency>
<!-- log4j -->
<!-- https://mvnrepository.com/artifact/log4j/log4j -->
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>
</dependency>
<!-- https://mvnrepository.com/artifact/redis.clients/jedis -->
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>2.9.0</version>
</dependency>
<!-- hadoop -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.4</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
resource文件夹中所需的资源:
###############################################
# 一下的配置文件都是以log4j.开头
# 一种就是log4j.properties | log4j.xml
# 最最重要就是第一个log4j.rootLogger,指定log4j日志的输出界别(目的地)
# log4j.rootLogger=INFO,stdout,file意思为:
# 日志可以输INFO级别以上的数据,将日志输出到stdout标准控制输出(控制台),输出到file
#
# 常见的日志输出级别:DEBUG(调试) < INFO(信息) < WARN(警告) < ERROR(错误) < FATAL(致命错误)
# 日志输出的顺序:和日志输出级别一致,即配置为一个级别,输出的内容只能是该级别及其以上级别的信息
# INFO(输出的包括 INFO WARN ERROR FATAL)
# ERROR(ERROR FATAL)
# 所以,一般情况下:在开发,测试环境中,日志的级别为DEBUG;在生产环境中,日志级别为INFO
#
# 输出目的地:
# 日志输出的各种各样的目的地,都是通过Appender来进行实现追加的
# 我们在appender中看到的PatternLayout的格式如下:
#
#%m 输出代码中指定的消息
#%n 输出一个回车换行符,Windows平台为“\r\n”,Unix平台为“\n”
#%p 输出优先级,即日志级别:DEBUG,INFO,WARN,ERROR,FATAL
#%r 输出自应用启动到输出该log信息耗费的毫秒数
#%c 输出所属的类目,通常就是所在类的全名
#%t 输出产生该日志事件的线程名
#%d 输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,比如:%d{yyy MMM dd HH:mm:ss , SSS},输出类似:2002年10月18日 22 : 10 : 28 , 921
#%l 输出日志事件的发生位置,包括类目名、发生的线程,以及在代码中的行数。举例:Testlog4.main(TestLog4.java: 10 ) log4j配置详解 - stone - stonexmx 的博客
# 常见的Appender
# ConsoleAppender 日志添加到控制台
# FileAppender 输出到文件
# DailyRollingFileAppender 每天生成一个日志文件
###############################################
##系统日志
log4j.rootLogger=INFO,stdout
##自定义日志的输出级别--->业务日志
log4j.logger.access = INFO, access
log4j.logger.ugchead = INFO, ugchead
log4j.logger.ugctail = INFO, ugctail
log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{
yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n
##输出到日志文件
log4j.appender.file = org.apache.log4j.FileAppender
log4j.appender.file.File = ./logs/platform.log
log4j.appender.file.layout=org.apache.log4j.PatternLayout
log4j.appender.file.layout.ConversionPattern=%d{
yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%l] [%p] - %m%n
### 输出到日志文件 ###
log4j.appender.R = org.apache.log4j.DailyRollingFileAppender
log4j.appender.R.File = ./logs/data-clean.log
log4j.appender.R.Append = true
log4j.appender.R.Threshold = DEBUG
log4j.appender.R.DatePattern = '.'yyyy-MM-dd
log4j.appender.R.layout = org.apache.log4j.PatternLayout
log4j.appender.R.layout.ConversionPattern = %d{
yyyy-MM-dd HH:mm:ss} [%t] [%c] [%p] - %m%n
### 保存异常信息到单独文件 ###
log4j.appender.access = org.apache.log4j.DailyRollingFileAppender
log4j.appender.access.File = /home/bigdata/logs/data-clean/data-access.log
log4j.appender.access.Append = true
log4j.appender.access.DatePattern = '.'yyyy-MM-dd
log4j.appender.access.layout = org.apache.log4j.PatternLayout
log4j.appender.access.layout.ConversionPattern = %m%n
log4j.appender.ugchead = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugchead.File = /home/bigdata/logs/data-clean/data-ugchead.log
log4j.appender.ugchead.Append = true
log4j.appender.ugchead.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugchead.layout = org.apache.log4j.PatternLayout
log4j.appender.ugchead.layout.ConversionPattern = %m%n
log4j.appender.ugctail = org.apache.log4j.DailyRollingFileAppender
log4j.appender.ugctail.File = /home/bigdata/logs/data-clean/data-ugctail.log
log4j.appender.ugctail.Append = true
log4j.appender.ugctail.DatePattern = '.'yyyy-MM-dd
log4j.appender.ugctail.layout = org.apache.log4j.PatternLayout
log4j.appender.ugctail.layout.ConversionPattern = %m%n
redis.conf
redis.host=bigdata01
redis.port=6379
redis.password=123456
redis.timeout=60000
新建data文件夹导入IP地址库。利用IP地址库对IP进行本地解析:
package com.aura.bigdata.clean.util;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.ByteOrder;
import java.util.Arrays;
import java.nio.charset.Charset;
import java.util.Random;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.locks.ReentrantLock;
/**
* 就是根据用户提供的ip地址,获取当前用户处于哪个省的那个市?
* 以此作为统计维度,可以按照省来统计
*/
public class IP {
public static String randomIp() {
Random r = new Random();
StringBuffer str = new StringBuffer();
str.append(r.nextInt(1000000) % 255);
str.append(".");
str.append(r.nextInt(1000000) % 255);
str.append(".");
str.append(r.nextInt(1000000) % 255);
str.append(".");
str.append(0);
return str.toString();
}
public static void main(String[] args){
IP.load("data/17monipdb.dat");
System.out.println(Arrays.toString(IP.find("210.26.111.65")));
}
public static boolean enableFileWatch = false;
private static int offset;
private static int[] index = new int[256];
private static ByteBuffer dataBuffer;
private static ByteBuffer indexBuffer;
private static Long lastModifyTime = 0L;
private static File ipFile ;
private static ReentrantLock lock = new ReentrantLock();
public static void load(String filename) {
ipFile = new File(filename);
load();
if (enableFileWatch) {
watch();
}
}
public static void load(String filename, boolean strict) throws Exception {
ipFile = new File(filename);
if (strict) {
int contentLength = Long.valueOf(ipFile.length()).intValue();
if (contentLength < 512 * 1024) {
throw new Exception("ip data file error.");
}
}
load();
if (enableFileWatch) {
watch();
}
}
public static String[] find(String ip) {
int ip_prefix_value = new Integer(ip.substring(0, ip.indexOf(".")));
long ip2long_value = ip2long(ip);
int start = index[ip_prefix_value];
int max_comp_len = offset - 1028;
long index_offset = -1;
int index_length = -1;
byte b = 0