84
T
E
L
E
C
O
M
E
N
G
I
N
E
E
R
I
N
G
T
E
C
H
N
I
C
S
A
N
D
S
TA
N
D
A
R
D
I
Z
AT
I
O
N
·2011年 第11期·
东信北邮信息技术有限公司专栏
E
A
S
T
C
O
M
-
B
U
P
T
I
N
F
O
R
M
AT
I
O
N
T
E
C
H
N
O
L
O
G
Y
C
O.
,
LT
D.
C
O
L
U
M
N
基于
Hadoop
的
Web
日志预处理的设计与实现
*
宋莹
1,2
,沈奇威
1,2
,王晶
1,2
(1 北京邮电大学网络与交换技术国家重点实验室,北京 100876;2 东信北邮信息技术有限
公司,北京 100191)
摘 要
Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘
算法精确性。本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处
理方法。通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性。
关键词
Web日志预处理;Web结构;map/reduce
中图分类号
TN915
文献标识码
A
文章编号
1008-5599(2011)11-0084-06
收稿日期
:
2011-10-13
* 基金项目:
国家自然科学基金
(No.61072057,60902051);
国家
973
计划项目
(No.2012CB315802);
中央高校基本科研业务费专项资金
(BUPT2009RC0505);
国家科技重大专项(No.2011ZX03002-001-01,移动互联网总体架构研究)
。
1 引言
随着
Internet
的迅猛发展,
Web
上的信息急剧膨胀,
而其中蕴含的信息未能得到充分的挖掘和利用。因此,
Web
数据挖掘成为数据挖掘技术研究的热点。Web
数
据挖掘主要分为
3
类
:
Web
内容挖掘(Web Content
Mining)
,Web
结
构
挖
掘(Web Structure Mining)
和
Web
日志挖掘(Web Usage Mining)
[1]
。
Web
日志挖掘就是对用户访问
Web
时的访问记录
进行数据挖掘。
通过分析和研究日志的规律
, 实现聚类、
分类、关联规则、序列分析等
Web
日志挖掘算法
[2]
。
Web
日志挖掘过程一般分为
3
个阶段
[3]
:
预处理阶段、
挖掘算法实施阶段、分析阶段。数据预处理的目的就是
将原始日志经过处理形成用户的会话文件,为挖掘算法
实施阶段作好数据准备。作为整个挖掘过程的基础和实
施有效挖掘算法的前提,数据预处理环节非常关键。
Web
日志包含了丰富和动态
Web
页面的访问和使
用信息,这为
Web
日志挖掘提供了丰富的资源。但是
如何对
Web
日志进行高效可靠的数据预处理具有极大
的挑战性
[4]
。
Hadoop
是
Apache
下的一个开源分布式计算平台,
它提供简单的编程模型,对大量数据进行分布式处理。
Hadoop
一般运行在由大量普通计算机组成的集群上。
Hadoop
框架的核心是分布式文件系统
HDFS
和
Map/
Reduce。HDFS
创建数据块的多个副本,并将其分布存
储在集群的数据节点(Data Node)上,实现可靠而快
速的计算。Map/Reduce
是一个用于大数据量并行计算
的编程模型,同时也是一种高效的任务调度模型,它将
一个计算任务分成很多细粒度的子任务,并在空闲的处
理节点(Task Tracker)之间进行调度,使处理速度快
万方数据