html抽取文章标题,基于机器学习的HTML标题抽取

技术创新

《微计算机信息》(管控一体化)2010年第26卷第3-3期

360元/年邮局订阅号:82-946

《现场总线技术应用200例》

博士论坛

体包括哪些特征信息将会在3.3中进行详细介绍。为了得到这些信息,在进行HTML 文档预处理时,首先将其解析成一个

DOM 树,预处理器会根据一些规则和已有对标题的知识,过滤

掉不可能成为标题的文本节点。比如script 标签中的文本,或者字数超过一个阈值的文本等,这些具有这些特点的文本节点都不会进入最后的输出序列。通过对HTML 文档的预处理,可以有效的减少进入训练和抽取阶段的实例数,提高系统处理速度和训练模型质量。

训练过程是机器学习标题抽取方法的核心。在此过程中,将会根据一种机器学习方法,使用输入序列中的实例(已经标记过是否为标题样本)为训练样本,最终生成标题抽取分类模型。输入训练阶段的实例与输入抽取阶段的实例不同,这些实例会在预处理过程中加入标记,以标识此实例是否为标题。

抽取过程使用经过训练的分类模型,对输入的样本实例进行分类处理,判断其是否为一个标题。在抽取过程的最后还将对分类模型所选出候选标题进行筛取处理。当有多个候选标题被分类器选出后,程序将选择与标签中内容最相近的那一个作为最终标题。

3.2机器学习模型

实验以C4.5决策树作为机器学习抽取模型。选取C4.5决策树作为抽取模型主要是它具有如下特点:

(1)可以生成可以理解的规则;(2)计算量相对来说不是很大;(3)可以处理连续和离散字段;

(4)决策树可以清晰的显示哪些字段比较重要。3.3标题抽取中的特征选择

由于现代因特网中,网页的HTML 代码风格迥异,每种视觉效果往往可以使用不同的方法表现出来,即使是语义性良好的网站之间也存在着上问题。这大大增加了标题特征选取的难度。为了提高训练出的分类模型的适用范围,我们总结了一些比较通用的特征信息作为样本特征。经过对总结出的文本节点特征进行分析后,我们可以将这些特征划分为以下几类:节点的位置信息、节点内容信息、节点的视觉和标签信息。表1列出了一部分实验中用到的特征。

表1标题抽取准确度

由于各大门户和资讯网站的页面HTML 格式规范,语义性良好,在我们观察到的页面中标签中都不为空,但是其中的文字内容不仅包括了标题内容,而且包含了一些噪音信息。虽然不能直接作标题项,但可以成为一个很好的抽取参考。我们将各实例与它的编辑距离,作为实例的一个特征向量,引入到机器学习标题抽取的方法中。

4实验结果

4.1实验环境

实验程序的模型建立和抽取部分以Weka 为基础上,实验中使用的C4.5决策树是在Weka 中实现的J48树。

4.2实验数据

我们选取60个门户或资讯网站作为实验的数据源。并选出其中的sohu 、新浪等20个网站的800多个网页作为训练样

本。为了测试机器学习抽取方法的域无关性,我们没有将每个网站中的网页都作为模型训练的数据,而是只将这部分作为网页作为抽取测试数据。

4.3实验结论

由于决策树的特性,我们可以很清楚地从训练出的抽取模型中,看到每个特征对抽取结果的影响程度。在所有的特征中,“节点内容与标签中内容的相似度”一项过滤到了大量实例,并对最终的抽取结果起着绝对作用。对抽取结果影响程度相对较大的特征依次为:节点内容字数,节点处在HTML 中的位置,以及是否为H*节点。

我们应用机器学习的方法对经验值通用抽取方法对测试数据进行了抽取实验。表2详细列出了抽取评测结果。

表2标题抽取准确度

当一个抽取出的标题与真正的标题十分相似,我们就认为它就是正确标题。我们使用了以下方法确定抽取标题与真正标题的相似程度:

d(t1,t2)/max(l1,l2)<0.2

d(t1,t2)表示t1与t2的编辑距离,l1、l2分别表示两个标题

字数。

从表2中显示的实验结果可以看到,对于那些提供了模型训练数据的网站中的网页,模型的抽取准确率要优于对其他网页的抽取准确率,这是由于训练出的决策树模型并不能达到全局最佳,当把抽取准确率较低的网站加入到训练数据集后,整体抽取准确率有所提升。

5结束语

本文论述了使用机器学习的方法进行标题抽取,提出了具体的方法和流程。并且我们将HTML 文档中结构化特性(标签、

DOM 、位置信息等)应用到了标题抽取中。

通过实验结果,我们可以得出以下结论:

(1)我们使用引入机器学习的方法进行标题抽取,较原有经验值通用抽取方法,在标题抽取准确性上有很大的提高;

(2)我们的方法拥有较低的域相关性,可以应用到通用抽取中。参考文献

[1]Yunhua Hu,Guomao Xin,Ruihua Song,Guoping Hu,Shuming Shi,Yunbo Cao,and Hang Li.Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval [J].The 28th Annual International ACM SIGIR Conference (SI -GIR'2005),August 2005.(下转第11页)

16--

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值