html怎样抽出头部导航页面,网页信息自动抽取方法与流程

57baf3537dfc4a53c0ea96ccbdc17e68.gif

本发明涉及一种网页信息自动抽取方法。

背景技术:

随着internet及其技术的迅猛发展,网络已经成为人类有史以来最为庞大的数据库。但是web页面除了含有表达主题的内容外,还有大量导航链接、广告链接和版权声明等与主题关系不大或者基本无关的内容。这些与web页面主题内容关系不大或者基本无关的数据通称为页面的噪音数据,噪音数据的存在给以web页面数据为基础的应用带来了很大挑战。目前主流的网页主题信息抽取技术分为以文本密度为核心的文本派和以视觉展示特征为核心的视觉派。前者主要依赖网页的文本密度特征,处理速度快,对传统的新闻网页可以满足大部分应用要求;后者主要利用浏览器渲染技术,还原网页的视觉展示特征,利用网页的视觉特征提取网页主题信息,这种方式通用性高,抽取效果取决于视觉特征融合算法。

基于文本密度的方法无法处理展示方式、展示元素越来越丰富的新型网站。基于视觉特征的方法高度依赖浏览器渲染技术,对硬件系统要求较高,处理速度慢,稳定性相对比较差,算法技术门槛较高,不利于大规模应用。

技术实现要素:

为解决现有技术的不足,本发明提供了一种网页信息自动抽取方法,兼顾了网页信息抽取效率和准确度,在并不显著降低传统网页抽取方法的基础上,考虑了网页的布局特征和html的部分视觉特征,有效提高了网页信息抽取的准确度。

为了实现上述目标,本发明采用如下的技术方案:

一种网页信息自动抽取方法,包括以下步骤:对网页信息进行预处理,构建区块dom树,定位正文区域,和对网页正文进行抽取;

其中,构建区块dom树包括以下步骤:对网页源码做容错补偿和dom解析,在dom基础上结合html区块布局元素构造区块dom结构,结合展示特征统计dom区块基础主题元素数量和对dom区块基础主题元素进行加权计算;

其中,在定位正文区域时,根据加权计算获得的主题权值进行正文区域的定位。

进一步地,定位正文区域包括以下步骤:根据dom区块主题权值自顶向下递归收缩定位候选主题区块,对候选dom区块进行合并获取正文区块和根据主题权值对正文区块进行裁剪去噪。

进一步地,定位正文区域包括以下步骤:对版权区块进行过滤。

进一步地,结合版权声明特征库倒序遍历dom区块过滤版权声明区块。

进一步地,对网页正文进行抽取包括以下步骤;确定正文相关图片,确定正文相关视频,确定正文相关数据表格和在确定正文相关图片、视频和数据表格基础上结合正文区块的文字构建正文。

进一步地,遍历正文区块之前的兄弟区块和正文区块,抽取非黑名单中的图片和视频链接分别作为正文相关图片和正文相关视频。

进一步地,遍历正文区块抽取数据表格作为正文相关数据表格。

进一步地,网页信息自动抽取方法还包括:对正文相关基本元数据进行抽取;

对正文相关基本元数据进行抽取包括:对标题进行抽取、对来源进行抽取、对发布时间进行抽取和对作者进行抽取。

进一步地,遍历正文区块之前的兄弟区块和正文区块中的短文本节点,计算文本节点字符和网页标题文本的最长公共子串,当最长子串和文本节点字符长度比值超过一定阈值,则加入标题候选集合;

遍历正文区块之前的兄弟区块,根据来源特征库抽取符合来源前缀和后置特征的字符串加入来源候选集合;

遍历正文区块之前的兄弟区块,根据发布时间特征库抽取符合发布时间前缀和后置特征的字符串加入发布时间候选集合;

遍历正文区块之前的兄弟区块,根据作者特征库抽取符合作者前缀和后置特征的字符串加入作者候选集合。

进一步地,对网页数据进行预处理包括:

对html网页源码做统一字符集转码和对特殊字符编解码。

本发明的有益之处在于兼顾了网页信息抽取效率和准确度,在并不显著降低传统网页抽取方法的基础上,考虑了网页的布局特征和html的部分视觉特征,有效提高了网页信息抽取的准确度。

在利用程序自动抽取网页信息的基础上,充分利用已经沉淀的黑名单、规则库和知识库,显著提高了自动抽取的准确率,并可以通过不断更新规则库和知识库提高抽取方法的适应范围和准确度。

把网页dom结构和网页的布局特征相结合,融合计算文本、图片、视频和表格构造出具有综合主题权值和部分视觉特征的区块dom,提高正文抽取的准确度,提高网页抽取算法的适用面;除了网页正文,还能利用已有黑名单、知识库和规则库比较准确地抽取出正文图片、视频、表格、标题、发布时间、来源、作者等关键字段。

附图说明

图1是一种网页信息自动抽取方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示,一种网页信息自动抽取方法,包括以下步骤:一、对网页信息进行预处理;二、构建区块dom树;三、定位正文区域;四、对网页正文进行抽取;五、对正文相关基本元数据进行抽取。

在定位正文区域时,根据加权计算获得的主题权值进行正文区域的定位。

一、对网页信息进行预处理

对网页信息进行预处理包括:对html网页源码做统一字符集转码和对特殊字符编解码。

二、构建区块dom树

构建区块dom树包括以下步骤:

2.1对网页源码做容错补偿和dom解析;

2.2在dom基础上结合html区块布局元素构造区块dom结构;

2.3结合展示特征统计dom区块基础主题元素数量;

2.4对dom区块基础主题元素进行加权计算。

权值为数量与权重的乘积。权值主要参考该元素节点的视觉展示信息,具有分段、分块、居中、加强展示效果的元素权值较高。

统计文本信息和权值(正向权重):纯文本字数和权值,有效文本数量和权值(长文本)。

统计超链接信息和权值(负面权重):超链接数量和权值,链接文字数量,文字链接平均比值(外域链接负面权重较高)。

统计图片信息和权值:垃圾图片数量(命中黑名单中的图片和小图记负面权重),非链接图片数量和权值,链接大图片数量和权值。

统计数据表格数量和权值:数据表格单元格数量。

统计视频数量和权值:垃圾视频数量(命中黑名单中的视频),正常视频数量和权值。

三、定位正文区域

对版权区块进行过滤:结合版权声明特征库倒序遍历dom区块过滤版权声明区块。

根据dom区块主题权值自顶向下递归收缩定位候选主题区块:找到主题权值最大的dom区块记做max_block,主题权值第二大的dom区块记做second_block;如果max_block的权值和其父节点权值比值超过一定阈值时,把max_block作为收缩根节点,否则停止收缩。

对候选dom区块进行合并获取正文区块:如果second_block的值大于某个阈值或者second_block与max_block比值大于一定阈值,则检查second_block与max_block是否有共同的父节点或祖父节点,如果有则将共同父节点或者祖父节点作为正文块content_block,同时将multi_block标记置为true。

根据主题权值对正文区块进行裁剪去噪:如果multi_block为true,则对content_block做内容裁剪,过滤掉主题权值小于平均值的区块;如果multi_block为flase,滤掉主题权值小于零的区块。

四、对网页正文进行抽取

对网页正文进行抽取包括以下步骤;确定正文相关图片,确定正文相关视频,确定正文相关数据表格和构建正文。

遍历正文区块之前的兄弟区块和正文区块,抽取非黑名单中的图片和视频链接分别作为正文相关图片和正文相关视频。

遍历正文区块抽取数据表格作为正文相关数据表格。

构建正文:在确定正文相关图片、视频和数据表格基础上结合正文区块的文字构建正文。具体而言,在上面的已经确定的图片、视频和数据表格基础上,结合正文区块的文字信息,按照在html中的出现顺序保留基本html展示特征,构造出图文、表格和视频混排的富文本正文。

五、对正文相关基本元数据进行抽取

5.1对标题进行抽取

顺序遍历正文区块之前的兄弟区块和正文区块中的短文本节点,计算文本节点字符和网页title文本的最长公共子串,当最长子串和文本节点字符长度比值超过一定阈值,则加入标题候选集合。如果标题候选集合大于1,则综合考虑节点的视觉加强效果、公共子串长度、公共子串和文本节点长度比值,优选一个文本节点;如果标题候选节点集合为空,则返回网页title作为网页主标题。

5.2对来源进行抽取

顺序遍历正文区块之前的兄弟区块,根据来源特征库抽取符合来源前缀和后置特征的字符串加入来源候选集合;如果候选集合为空,则分别从正文开头和结尾,根据来源特征库抽取符合来源前缀和后缀特征的字符串加入来源候选集合。如果候选集合数量大于1,则优选可以匹配媒体来源库的内容作为文章来源。

5.3对发布时间进行抽取

顺序遍历正文区块之前的兄弟区块,根据发布时间特征库抽取符合发布时间前缀和后置特征的字符串加入发布时间候选集合;如果候选集合数量大于1,则优选数值符合常理且可以匹配发布时间格式库的内容作为发布时间。

5.4对作者进行抽取

顺序遍历正文区块之前的兄弟区块,根据作者特征库抽取符合作者前缀和后置特征的字符串加入作者候选集合;如果作者候选集合为空,则分别从正文开头和结尾,根据作者特征库抽取符合作者前缀和后缀特征的字符串加入作者候选集合。如果候选集合数量大于1,则优选可以匹配作者来源库的内容作为文章作者。

把网页dom结构和网页的区块布局元素结合,构造出兼具文本特征和部分视觉特征的区块dom结构,对文字、图片、视频、表格等多种正文基本元素进行融合计算,量化计算出dom区块的主题贡献值;通过自顶向下的区块收缩算法定位到网页主题的核心区块,然后通过自底向上的区块扩展算法筛选出网页的主题候选区块,最后对候选主题区块进行噪音裁剪完成最终的主题区块定位;以确定的主题区块为基础,结合黑名单、规则库和知识库提取包含文本、图片、视频、图表的正文信息;以主题区块为中心结合规则库、知识库、上下文位置、展示特征抽取正文标题、发布时间、来源、作者。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值