整个架构流程的背景是:
1、各个应用产生日志打印约定格式的syslog,然后在服务器端部署syslog-ng server做日志的统一收集。
2、在syslog-ng server所在的服务器做日志文件的分类然后发送日志消息给storm做实时流数据统计。
3、同时每日凌晨启动rsync服务将前一天的日志文件发送到hadoop和hive服务器做非实时数据分析
使用hadoop和hive来进行应用的日志数据分析的详细流程:
1、安装hadoop
hadoop的安装以及配置在我的文章中有详细的描述:
http://blog.csdn.net/jsjwk/article/details/8923999
2、安装hive
hive的安装非常简单,只需要下载安装包:
wget http://mirrors.cnnic.cn/apache/hive/hive-0.10.0/hive-0.10.0.tar.gz
然后解压后,修改一点点配置文件用于连接hadoop的配置即可。
3、在hive中创建表
/**
* 根据日期来创建hive的邮件日志表
* @param date
* @return
* @throws SQLException
*/
public String createTable(Calendar cal) throws SQLException
{
String tableName = getTableName(cal.getTime());
StringBuilder sql = new StringBuilder();
sql.append("cre