项目实战
需求描述:
在业务系统的服务器上,业务程序会不断生成业务日志(比如网站的页面访问日志)
业务日志是用log4j生成的,会不断地切出日志文件
需要定期(比如每小时)从业务服务器上的日志目录中,探测需要采集的日志文件(access.log不能采),发往HDFS
注意点:业务服务器可能有多台(hdfs上的文件名不能直接用日志服务器上的文件名)
当天采集到的日志要放在hdfs的当天目录中
采集完成的日志文件,需要移动到到日志服务器的一个备份目录中
定期检查(一小时检查一次)备份目录,将备份时长超出24小时的日志文件清除
Timer timer = new Timer()
timer.schedual()
1、流程
启动一个定时任务:
——定时探测日志源目录
——获取需要采集的文件
——移动这些文件到一个待上传临时目录
——遍历待上传目录中各文件,逐一传输到HDFS的目标路径,同时将传输完成的文件移动到备份目录
启动一个定时任务:
——探测备份目录中的备份数据,检查是否已超出最长备份时长,如果超出,则删除
2、规划各种路径
accesslog.1.log
日志源路径: d:/logs/accesslog/
待上传临时目录: d:/logs/toupload/
备份目录: d:/logs/backup/日期/
HDFS存储路径: /logs/日期
HDFS中的文件的前缀:access_log_
HDFS中的文件的后缀:.log
复制代码
一、创建两个定时器
方法一:
public class submitter {
public static void main(String[] args) {
Timer timer = new Timer();
timer.schedule(new FileTask(),1000,2000);
timer.schedule(new FileTask2(),1000,2000);
}
}
复制代码
public class FileTask2 extends TimerTask {
@Override
public void run() {
String data;
Date date = new Date();
SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd");
data = df.format(date);
File file = new File("d:/logs/backup/" + data + "/");
File[] files = file.listFiles();
for (File file1 : files) {
//当前的时间戳
long t4 = System.currentTimeMillis();
try {
long t5 = df.parse(file1.getPath()).getTime();
if (t4 - t5 > 24*60*60*1000L) {
FileUtils.deleteDirectory(file1);
}
} catch (ParseException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}
方法二:
SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
File file = new File("D:\\logs\\backup\\2018-06-30");
File[] files = file.listFiles();
for (File file1 : files) {
try {
//获取文件创建的时间
Calendar cal = Calendar.getInstance();
cal.setTimeInMillis(file1.lastModified());
Long deate = df.parse(df.format(cal.getTime())).getTime();
//获取到当前系统的时间戳
Long newdate = System.currentTimeMillis();
//比较文件的时间和系统的时间是不是小于24小时
if (newdate - deate > 24*60*60*1000L){
FileUtils.deleteDirectory(file1);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
}
复制代码
二、日志工作流程
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.File;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.TimerTask;
import java.util.UUID;
public class FileTask extends TimerTask {
//定义获取时间的全局变量
String data2;
//定义系统文件fs的全局变量
FileSystem fs = null;
public void run() {
Date day=new Date();
SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd");
data2 = df.format(day);
//创建log文件夹的路径
File file = new File("D:\\logs\\accesslog");
//获取需要采集的文件
File[] file1 = file.listFiles();
//创建一个待上传文件夹的路径
File file2 = new File("D:\\logs\\toupload");
//判断是否存在
if (!file2.exists()){
file2.mkdir();
}
//遍历待上传目录中各文件,逐一传输到HDFS的目标路径
for (File file3 : file1) {
try {
FileUtils.moveToDirectory(file3,file2,true);
} catch (IOException e) {
e.printStackTrace();
}
}
try {
//初始化fs对象
fs = FileSystem.get(new URI("hdfs://192.168.33.101:9000/"),new Configuration() , "root");
//拼接Path路径
Path path = new Path("/logs/"+data2);
//判断hdfs的文件夹是否存在
if(!fs.exists(path)){
fs.mkdirs(path);
}
//创建本地备份文件路径
File fileWE = new File("d:/logs/backup/" + data2 + "/");
if (!file.exists()){
file.mkdir();
}
//获取备份文件
File[] file3 = file2.listFiles();
//遍历逐一输出文件到本地路径
for (File file4 : file3) {
Path path1 = new Path(path+"access_log_"+UUID.randomUUID()+".log");
//路径下的前缀"access_log_",后缀".log"的文件
fs.copyFromLocalFile(new Path(file4.getAbsolutePath()),path1);
//将传输完成的文件移动到备份目录
FileUtils.moveToDirectory(file4,fileWE,true);
}
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
} catch (URISyntaxException e) {
e.printStackTrace();
}
}
}
复制代码