hadoop合并日志_基于Hadoop的Web日志预处理的设计与实现

84

T

E

L

E

C

O

M

E

N

G

I

N

E

E

R

I

N

G

T

E

C

H

N

I

C

S

A

N

D

S

TA

N

D

A

R

D

I

Z

AT

I

O

N

·2011年 第11期·

东信北邮信息技术有限公司专栏

E

A

S

T

C

O

M

-

B

U

P

T

I

N

F

O

R

M

AT

I

O

N

T

E

C

H

N

O

L

O

G

Y

C

O.

,

LT

D.

C

O

L

U

M

N

基于

Hadoop

Web

日志预处理的设计与实现

*

󰀂

宋莹

1,2

,沈奇威

1,2

,王晶

1,2

(1 北京邮电大学网络与交换技术国家重点实验室,北京 100876;2 东信北邮信息技术有限

公司,北京 100191)

摘 要

Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘

算法精确性。本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处

理方法。通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性。

关键词

Web日志预处理;Web结构;map/reduce

中图分类号

TN915

文献标识码

A

文章编号

1008-5599(2011)11-0084-06

收稿日期

2011-10-13

* 基金项目:

国家自然科学基金

(No.61072057,60902051);

国家

973

计划项目

(No.2012CB315802);

中央高校基本科研业务费专项资金

(BUPT2009RC0505);

国家科技重大专项(No.2011ZX03002-001-01,移动互联网总体架构研究)

1  引言

随着

Internet

的迅猛发展,

Web

上的信息急剧膨胀,

而其中蕴含的信息未能得到充分的挖掘和利用。因此,

Web

数据挖掘成为数据挖掘技术研究的热点。Web

据挖掘主要分为

3

Web

内容挖掘(Web Content

Mining)

,Web

掘(Web Structure Mining)

Web

日志挖掘(Web Usage Mining)

[1]

Web

日志挖掘就是对用户访问

Web

时的访问记录

进行数据挖掘。

通过分析和研究日志的规律

, 实现聚类、

分类、关联规则、序列分析等

Web

日志挖掘算法

[2]

Web

日志挖掘过程一般分为

3

个阶段

[3]

预处理阶段、

挖掘算法实施阶段、分析阶段。数据预处理的目的就是

将原始日志经过处理形成用户的会话文件,为挖掘算法

实施阶段作好数据准备。作为整个挖掘过程的基础和实

施有效挖掘算法的前提,数据预处理环节非常关键。

Web

日志包含了丰富和动态

Web

页面的访问和使

用信息,这为

Web

日志挖掘提供了丰富的资源。但是

如何对

Web

日志进行高效可靠的数据预处理具有极大

的挑战性

[4]

Hadoop

Apache

下的一个开源分布式计算平台,

它提供简单的编程模型,对大量数据进行分布式处理。

Hadoop

一般运行在由大量普通计算机组成的集群上。

Hadoop

框架的核心是分布式文件系统

HDFS

Map/

Reduce。HDFS

创建数据块的多个副本,并将其分布存

储在集群的数据节点(Data Node)上,实现可靠而快

速的计算。Map/Reduce

是一个用于大数据量并行计算

的编程模型,同时也是一种高效的任务调度模型,它将

一个计算任务分成很多细粒度的子任务,并在空闲的处

理节点(Task Tracker)之间进行调度,使处理速度快

万方数据

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值