hadoop合并日志_基于Hadoop的Web日志预处理的设计与实现

最新推荐文章于 2022-07-21 14:07:17 发布

weixin_39593427

最新推荐文章于 2022-07-21 14:07:17 发布

阅读量152

点赞数 1

文章标签： hadoop合并日志

本文链接：https://blog.csdn.net/weixin_39593427/article/details/111489801

版权

·2011年第11期·

东信北邮信息技术有限公司专栏

基于

Hadoop

的

Web

日志预处理的设计与实现

󰀂

宋莹

1,2

，沈奇威

1,2

，王晶

1,2

(1 北京邮电大学网络与交换技术国家重点实验室，北京 100876；2 东信北邮信息技术有限

公司，北京 100191)

摘要

Web日志预处理是Web日志挖掘的重要步骤，是通过Web日志获得准确信息的前提，直接影响后续的挖掘

算法精确性。本文针对海量Web日志，提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处

理方法。通过Hadoop平台与单机的性能对比，证明了Hadoop进行Web日志预处理的高效性。

关键词

Web日志预处理；Web结构；map/reduce

中图分类号

TN915

文献标识码

文章编号

1008-5599(2011)11-0084-06

收稿日期

：

2011-10-13

* 基金项目：

国家自然科学基金

(No.61072057，60902051)；

国家

973

计划项目

(No.2012CB315802)；

中央高校基本科研业务费专项资金

(BUPT2009RC0505)；

国家科技重大专项(No.2011ZX03002-001-01，移动互联网总体架构研究)

。

1 引言

随着

Internet

的迅猛发展，

Web

上的信息急剧膨胀，

而其中蕴含的信息未能得到充分的挖掘和利用。因此，

Web

数据挖掘成为数据挖掘技术研究的热点。Web

数

据挖掘主要分为

类

：

Web

内容挖掘(Web Content

Mining)

，Web

结

构

挖

掘(Web Structure Mining)

和

Web

日志挖掘(Web Usage Mining)

[1]

。

Web

日志挖掘就是对用户访问

Web

时的访问记录

进行数据挖掘。

通过分析和研究日志的规律

, 实现聚类、

分类、关联规则、序列分析等

Web

日志挖掘算法

[2]

。

Web

日志挖掘过程一般分为

个阶段

[3]

：

预处理阶段、

挖掘算法实施阶段、分析阶段。数据预处理的目的就是

将原始日志经过处理形成用户的会话文件，为挖掘算法

实施阶段作好数据准备。作为整个挖掘过程的基础和实

施有效挖掘算法的前提，数据预处理环节非常关键。

Web

日志包含了丰富和动态

Web

页面的访问和使

用信息，这为

Web

日志挖掘提供了丰富的资源。但是

如何对

Web

日志进行高效可靠的数据预处理具有极大

的挑战性

[4]

。

Hadoop

是

Apache

下的一个开源分布式计算平台，

它提供简单的编程模型，对大量数据进行分布式处理。

Hadoop

一般运行在由大量普通计算机组成的集群上。

Hadoop

框架的核心是分布式文件系统

HDFS

和

Map/

Reduce。HDFS

创建数据块的多个副本，并将其分布存

储在集群的数据节点(Data Node)上，实现可靠而快

速的计算。Map/Reduce

是一个用于大数据量并行计算

的编程模型，同时也是一种高效的任务调度模型，它将

一个计算任务分成很多细粒度的子任务，并在空闲的处

理节点(Task Tracker)之间进行调度，使处理速度快

万方数据

weixin_39593427

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop合并日志_基于Hadoop的Web日志预处理的设计与实现

84TELECOMENGINEERINGTECHNICSANDSTANDARDIZATION·2011年第11期·东信北邮信息技术有限公司专栏EASTCOM-BUPTINFORMATIONTECHNOLOGYCO.,LTD.COLUMN基于Hadoop的Web日志预处理的设计与实现*????宋莹1,2，沈奇威1,2，王晶1,2(1北京邮电大学网络与交换技术国家重点实验室，北京100876；2东信...
复制链接

扫一扫